«有史以来分析的最大数据量 世界”。大卫·杜汗 (David Doukhan) 就是这样发表的法国媒体关于女性发言时间的报道3 月 4 日星期一,介绍他在国家视听研究所 (INA) 的工作。
毫不奇怪,他们说“电视和广播中出现的人数只有男性的一半”。在屏幕上,女性声音仅占总讲话时间的 32.7%,而在麦克风后面,这一比例下降至 31.2%。如果结果不是真正新的,那么分析的数据量和分析工具就是全新的。
前所未有的数据量
该研究涵盖 22 个电视频道和 21 个广播电台。最古老的广播数据可以追溯到 2001 年,电视数据可以追溯到 2010 年,一直持续到 2018 年。 INA 每天 24 小时录制,这些视听内容既丰富又庞大。
然而,如此大量的数据很难以非自动化方式进行分析。而且,手动测量说话时间的成本很高。因此,迄今为止对女性在广播中的发言时间(而不仅仅是出现时间)进行的研究仅限于人口样本。这本质上是有偏见的,没有给出所分析情况的详尽愿景。在这种情况下,媒体中的性别不平等。
使用人工智能使研究工作自动化成为可能。 INA 与勒芒大学计算机实验室合作的成果,声学软件Ina语音段允许“定位多媒体文档中的语音区域,并确定[类型]扬声器”。使用深度神经网络(深度学习),该算法能够根据发出声音的频率来区分女人或男人的声音。
为了理解清楚,作者描述了上面转载的自动分析的例子在大学笔记中解释:
«L上图表示原始音频信号。中间的数字对应于声音信号的“时频”表示,作为其自动分析的基础。下图表示分配给男性 (M) 和女性 (F) 的信号部分。 »
该系统是根据一个巨大的字典进行训练的,该字典包含 1957 年至 2012 年间播放的 32,000 个声音片段,其中包括 INA 录制的 94 小时的男性声音和 27 小时的女性声音。这是学习软件的基础。
即将在 data.gouv.fr 上提供
INA 保存的庞大历史让我们能够看到忠实于现实的全景。 David Doukhan 声称他的分析程序的误差幅度仅为 0.6%。这让我们对这项研究得出的令人鼓舞的结论感到高兴:
所有渠道的女性表达率从 2010 年的 30.4% 上升到 2018 年的 35.1%。这种发展在公共渠道上尤其明显(+7%)。[在广播中,编者按]女性表达率中位数从2001年的25.1%增加到2018年的34.4%,18年来每年增加约0.5%。
本研究期间产生的所有指标均应发布在法国数据网,法国公共数据开放平台。这将确保定期监测该项目的主要方面之一男女平等,被颁布为“五年任期的伟大事业”。