对于我们人类来说,预期他人的行为是第二天性。当我们遇到一个朋友时,我们会拥抱,撞拳头还是握手?无论是哪个,我们的直觉都会告诉如何做出回应。
但是,对于人工智能而言,它更加复杂。除非编程,否则这些AI系统将很难使用这种复杂的知识。
那么AI系统如何学习人类行为然后?通过狂欢观看电视节目和YouTube视频,由新开发的算法证明。
真正的沙发土豆
马萨诸塞州理工学院(MIT)的科学家开发了一种算法,可以比以往任何时候都更精确,准确地预测相互作用。
该机器是在YouTube视频中教育的,以及电视节目中的600个小时的剪辑大爆炸理论,,,,办公室和绝望的家庭主妇。
因此,该算法可以预测两个人是否会握手,拍打五,亲吻或拥抱。在第二种情况下,该算法可以预见五秒钟后视频中可能出现的内容。它搜索模式和可识别的对象,例如人的脸,手和许多其他物体。
该算法用背景材料喂食,然后编程以观看新剪辑。研究人员只是在即将发生的事情时冻结了剪辑,然后要求该算法预测接下来发生的事情。
大约43%的时间,计算机能够正确识别下一个操作。
尽管预测率低于人类,而人类准确地确定了该动作的时间为71%,但科学家说,结果对计算机仍然相当不错。它比其他实验中的36%率要好。
为什么研究很重要
人类的问候似乎太平凡或任意了,无法预测,但研究人员说,这项任务是他们更容易控制的测试案例。
麻省理工学院的博士生卡尔·范德里克(Carl Vondrick)说,他们想证明,只要狂暴观看大量视频,计算机就可以收集和吸收足够的知识,以准确地预测其环境。
“人类会自动学会通过经验预测行动,”说沃德里克(Vondrick),“这使我们有兴趣尝试以相同的常识来掩盖计算机。”
尽管将算法纳入实际用途要很长时间了,但研究人员说,未来和更复杂的版本可以应用于不同的领域:从创建更好的动作计划的机器人到安全摄像机,到任何人受伤时都会提醒响应者。
它也可以用来提高机器人的导航能力或Google玻璃式耳机,这些耳机可以提供有关一个人接下来可以做什么的建议。
在计算机科学和人工智能实验室(CSAIL)进行的麻省理工学院研究的详细信息将在国际计算机视觉和模式识别会议上介绍[PDF]。
这项工作得到了国家科学基金会的支持,由麻省理工学院教授安东尼奥·托拉尔巴(Antonio Torralba)和马里兰州大学教授Hamed Pirsiavash合着。
观看下面的视频,以了解该算法的工作原理。