«有史以來分析的最大數據量 世界」。大衛杜汗 (David Doukhan) 就是這樣發表的法國媒體關於女性發言時間的報導3 月 4 日星期一,介紹他在國家視聽研究所 (INA) 的工作。
毫不奇怪,他們說“電視和廣播中出現的人數只有男性的一半」。在螢幕上,女性聲音僅佔總講話時間的 32.7%,而在麥克風後面,這一比例下降至 31.2%。如果結果不是真正新的,那麼分析的資料量和分析工具就是全新的。
前所未有的數據量
研究涵蓋 22 個電視頻道和 21 個廣播電台。最古老的廣播數據可以追溯到 2001 年,電視數據可以追溯到 2010 年,一直持續到 2018 年。
然而,如此大量的數據很難以非自動化方式進行分析。而且,手動測量說話時間的成本很高。因此,迄今為止對女性在廣播中的發言時間(而不僅僅是出現時間)進行的研究僅限於人口樣本。這本質上是有偏見的,沒有給出所分析情況的詳盡願景。在這種情況下,媒體中的性別不平等。
使用人工智慧使研究工作自動化成為可能。 INA 與勒芒大學電腦實驗室合作的成果,聲學軟體Ina語音段允許“定位多媒體文件中的語音區域,並確定[類型]揚聲器」。使用深度神經網絡(深度學習),該演算法能夠根據發出聲音的頻率來區分女人或男人的聲音。
![](http://webbedxp.com/tech/misha/app/uploads/2019/03/IA-gender-analysis.png)
為了理解清楚,作者描述了上面轉載的自動分析的例子在大學筆記中解釋:
«L上圖表示原始音訊訊號。中間的數字對應於聲音訊號的「時頻」表示,作為其自動分析的基礎。下圖表示分配給男性 (M) 和女性 (F) 的訊號部分。 »
該系統是根據一個巨大的字典進行訓練的,該字典包含 1957 年至 2012 年間播放的 32,000 個聲音片段,其中包括 INA 錄製的 94 小時的男性聲音和 27 小時的女性聲音。這是學習軟體的基礎。
即將在 data.gouv.fr 上提供
INA 保存的龐大歷史讓我們能夠看到忠於現實的全景。 David Doukhan 聲稱他的分析程序的誤差幅度僅為 0.6%。這讓我們對這項研究得出的令人鼓舞的結論感到高興:
所有管道的女性表達率從 2010 年的 30.4% 上升到 2018 年的 35.1% 這種發展在公共管道上尤其明顯(+7%)。[在廣播中,編按]女性表達率中位數從2001年的25.1%增加到2018年的34.4%,18年來每年增加約0.5%。
本研究期間產生的所有指標應發佈在法國數據網,法國公共資料開放平台。這將確保定期監測該項目的主要方面之一男女平等,被頒佈為“五年任期的偉大事業”。