特伦托大学和欧洲裔中心Tecnològic的研究人员开发了一种新的人工智能方法,能够进行无监督的特征学习,以实现多模式情感识别(MER)。
该系统在最近的一个纸,基于四个无监督的子网络,每种处理特定类型的数据:文本,视觉(面部图像和地标)和声学。子网络用于成对对比度学习。
换句话说,它可以将面部和语音生物识别技术与文本结合在一起,以识别个人的情绪。
根据对最新技术状态的研究,作者对每种模式使用了不同的骨干,以实现每种类型的数据的最合适模型。
结果,MTCNN算法例如,选择用于面部生物识别技术,而TCN则用于语音生物识别技术。
就实验的数据库而言,研究人员选择了乌鸦语音识别和CMU-MOSEI用于面部识别。
该报告解释说:“ [MER]的成功主要依赖于监督的学习范式。”
“但是,数据注释很昂贵,耗时,并且情绪表达和感知取决于几个因素(例如年龄,性别,培养)获得高可靠性的标签很难。”
为了解决这些问题,研究人员专注于MER的无监督功能学习。
作者声称,这种方法是MER文献中的第一次尝试。 “与现有MER方法相比,我们的端到端特征学习方法具有几种差异(和优势)。”
首先,该方法是无监督的,这意味着它可以在没有数据注释的情况下起作用。其次,它不需要数据空间增强,模态对准,大量批量大小或时期。第三,它仅在推理时应用数据融合,最后,它不需要对情绪识别任务进行预训练的主机。
论文写道:“基准数据集上的实验表明,我们的方法的表现优于MER中应用的几种基线方法和无监督的学习方法。”
此外,作为一种无监督的特征学习方法,该团队认为所提出的方法可以转移到其他域而无需再培训。
报告总结说:“提出的方法使所有数据(例如情绪)保持了相同的方式配对,并且我们学习功能的方式对每种方式都具有同等的重视。”
“另一种选择可能是为不同的情感类别具有不同的方式配对。这将作为未来的工作进一步研究。”
情感识别研究是一个热门话题,甚至超出了学术界。例如,在5月,美国律师协会建议它可能欢迎情感AI作为磨练法庭和营销绩效的工具。