對於我們人類來說,預期他人的行為是第二天性。當我們遇到一個朋友時,我們會擁抱,撞拳頭還是握手?無論是哪個,我們的直覺都會告訴如何做出回應。
但是,對於人工智能而言,它更加複雜。除非編程,否則這些AI系統將很難使用這種複雜的知識。
那麼AI系統如何學習人類行為然後?通過狂歡觀看電視節目和YouTube視頻,由新開發的算法證明。
真正的沙發土豆
馬薩諸塞州理工學院(MIT)的科學家開發了一種算法,可以比以往任何時候都更精確,準確地預測相互作用。
該機器是在YouTube視頻中教育的,以及電視節目中的600個小時的剪輯大爆炸理論,,,,辦公室和絕望的家庭主婦。
因此,該算法可以預測兩個人是否會握手,拍打五,親吻或擁抱。在第二種情況下,該算法可以預見五秒鐘後視頻中可能出現的內容。它搜索模式和可識別的對象,例如人的臉,手和許多其他物體。
該算法用背景材料餵食,然後編程以觀看新剪輯。研究人員只是在即將發生的事情時凍結了剪輯,然後要求該算法預測接下來發生的事情。
大約43%的時間,計算機能夠正確識別下一個操作。
儘管預測率低於人類,而人類準確地確定了該動作的時間為71%,但科學家說,結果對計算機仍然相當不錯。它比其他實驗中的36%率要好。
為什麼研究很重要
人類的問候似乎太平凡或任意了,無法預測,但研究人員說,這項任務是他們更容易控制的測試案例。
麻省理工學院的博士生卡爾·范德里克(Carl Vondrick)說,他們想證明,只要狂暴觀看大量視頻,計算機就可以收集和吸收足夠的知識,以準確地預測其環境。
“人類會自動學會通過經驗預測行動,”說沃德里克(Vondrick),“這使我們有興趣嘗試以相同的常識來掩蓋計算機。”
儘管將算法納入實際用途要很長時間了,但研究人員說,未來和更複雜的版本可以應用於不同的領域:從創建更好的動作計劃的機器人到安全攝像機,到任何人受傷時都會提醒響應者。
它也可以用來提高機器人的導航能力或Google玻璃式耳機,這些耳機可以提供有關一個人接下來可以做什麼的建議。
在計算機科學和人工智能實驗室(CSAIL)進行的麻省理工學院研究的詳細信息將在國際計算機視覺和模式識別會議上介紹[PDF]。
這項工作得到了國家科學基金會的支持,由麻省理工學院教授安東尼奧·托拉爾巴(Antonio Torralba)和馬里蘭州大學教授Hamed Pirsiavash合著。
觀看下面的視頻,以了解該算法的工作原理。