
人工智能有一天可能会包含“图片值得一千个单词”一词的含义,因为科学家现在正在教授程序来描述像人类一样的图像。
研究人员在一项新的研究中说,有一天,计算机甚至可能能够解释视频中正在发生的事情。
计算机已经成长越来越多地识别面孔图像中的其他项目。最近,这些进步导致了图像字幕工具,从而产生了图像的字面描述。 [超级智能机器:7机器人期货这是给出的
现在,微软Research及其同事的科学家正在开发一个系统,该系统可以自动描述一系列图像,就像一个人讲故事一样。研究人员说,目的不仅在于解释图片中的项目,而且是在似乎正在发生的事情以及它如何使人感觉到。例如,如果向一个人展示了一个穿着燕尾服的男人的照片和长长的白色衣服的女人,而不是说:“这是新娘和新郎,”他或她可能会说:“我的朋友结婚了。他们看起来真的很高兴;这是一场美丽的婚礼。”
研究人员试图给予人工智能那些讲故事的能力。
Microsoft Research的计算机科学家玛格丽特·米切尔(Margaret Mitchell)说:“目的是帮助使AIS更像人性化的智能,以更抽象的水平来理解事物,这意味着有趣,令人毛骨悚然或怪异或有趣的意义。” “人们已经传达了eons的故事,利用它们传达了我们的道德,策略和智慧。我们的专注于讲故事,我们希望能够帮助AIS了解人类的概念在某种程度上对人类非常安全和有益,而不是教它如何击败人类。”
讲一个故事
为了建立视觉讲故事系统,研究人员使用了深神经网络,通过例如学习的计算机系统 - 例如,通过分析数千个猫图像示例来学习如何识别照片中的猫。研究人员设计的系统类似于用于自动化语言翻译的系统,但科学家们训练它以将图像翻译成句子,而不是教导系统从一种语言转换为另一种语言。
研究人员使用亚马逊的机械土耳其人(一个众包市场)雇用工人写句子,描述由五张或更多照片组成的场景。总共,工人描述了计算机系统的65,000多张照片。这些工人的描述可能会有所不同,因此科学家宁愿从与这些场景的其他帐户相似的场景中学习。 [AI的历史:人工智能(信息图)这是给出的
然后,科学家将其系统提供了8,100多个新图像,以检查其产生的故事。例如,虽然图像字幕可能会拍摄五幅图像,然后说:“这是一个家庭的照片;这是蛋糕的照片;这是狗的照片;这是海滩的图片,”讲故事的程序可能会拍下相同的图像,并说:“一家人聚在一起吃饭;他们有很多美味的食物;他们很高兴狗在那里;他们在那里享受了一段时间;
研究人员面临的一项挑战是如何评估系统在产生故事方面的有效性。评估故事质量的最好,最可靠的方法是人类的判断,但是计算机产生了数千个故事这将花费大量时间和精力来检查。
取而代之的是,科学家尝试了自动化方法来评估故事质量,以快速评估计算机性能。在他们的测试中,他们专注于一种自动化方法,其评估与人类判断力最为匹配。他们发现,这种自动化方法将计算机讲故事的人评为表现以及人类讲故事的人。
一切都很棒
尽管如此,计算机讲故事的人仍需要更多的修补。米切尔告诉《 Live Science》:“自动化的评估说,它比人类做得好或更好,但是如果您实际上看出的是生成的东西,那比人类还差得多。” “自动化评估指标没有捕获很多,需要做更多的工作。这项工作是一个可靠的开始,但这只是开始。”
例如,系统“偶尔会”幻觉米切尔说:“视觉对象。它正在学习各种单词,但可能没有明确的方式来区分它们。因此,它可能会认为一个单词意味着它没有的意思,因此[它]会说当图像没有的话在图像中。”
此外,计算机讲故事的人需要大量工作来确定其特定或普遍的故事应该是什么。例如,在最初的测试中,“它只是说一切都一直很棒 - '所有人都度过了愉快的时光;每个人都度过了愉快的时光;那是美好的一天,”米切尔说。 “现在也许是真的,但是我们也希望系统专注于突出的内容。”
将来,计算机化的讲故事可以帮助人们自动为幻灯片制定故事他们上传到社交媒体的图像,米切尔说。她说:“您会帮助人们分享他们的经验,同时减少一些人觉得很乏味的精美工作。”计算机化的讲故事“还可以帮助视力障碍的人,为看不到它们的人打开图像。”
米切尔说,如果AI学会根据图像序列讲述故事,“这是为视频做同样的垫脚石。”她说:“这可能有助于提供有趣的应用程序。例如,对于安全摄像机,您可能只想摘要任何值得注意的内容,或者您可以自动举办推文活动。”
科学家将在本月在圣地亚哥详细介绍计算语言学协会北美分会的年度会议。
原始文章现场科学。