特倫託大學和歐洲裔中心Tecnològic的研究人員開發了一種新的人工智能方法,能夠進行無監督的特徵學習,以實現多模式情感識別(MER)。
該系統在最近的一個紙,基於四個無監督的子網絡,每種處理特定類型的數據:文本,視覺(面部圖像和地標)和聲學。子網絡用於成對對比度學習。
換句話說,它可以將面部和語音生物識別技術與文本結合在一起,以識別個人的情緒。
根據對最新技術狀態的研究,作者對每種模式使用了不同的骨幹,以實現每種類型的數據的最合適模型。
結果,MTCNN算法例如,選擇用於面部生物識別技術,而TCN則用於語音生物識別技術。
就實驗的數據庫而言,研究人員選擇了烏鴉語音識別和CMU-MOSEI用於面部識別。
該報告解釋說:“ [MER]的成功主要依賴於監督的學習範式。”
“但是,數據註釋很昂貴,耗時,並且情緒表達和感知取決於幾個因素(例如年齡,性別,培養)獲得高可靠性的標籤很難。 ”
為了解決這些問題,研究人員專注於MER的無監督功能學習。
作者聲稱,這種方法是MER文獻中的第一次嘗試。 “與現有MER方法相比,我們的端到端特徵學習方法具有幾種差異(和優勢)。”
首先,該方法是無監督的,這意味著它可以在沒有數據註釋的情況下起作用。其次,它不需要數據空間增強,模態對準,大量批量大小或時期。第三,它僅在推理時應用數據融合,最後,它不需要對情緒識別任務進行預訓練的主機。
論文寫道:“基準數據集上的實驗表明,我們的方法的表現優於MER中應用的幾種基線方法和無監督的學習方法。”
此外,作為一種無監督的特徵學習方法,該團隊認為所提出的方法可以轉移到其他域而無需再培訓。
報告總結說:“提出的方法使所有數據(例如情緒)保持了相同的方式配對,並且我們學習功能的方式對每種方式都具有同等的重視。”
“另一種選擇可能是為不同的情感類別具有不同的方式配對。這將作為未來的工作進一步研究。”
情感識別研究是一個熱門話題,甚至超出了學術界。例如,在5月,美國律師協會建議它可能歡迎情感AI作為磨練法庭和營銷績效的工具。