得益于多种因素的结合,像狗一样的机器人有一天可以学会玩捡东西的游戏(人工智能)和计算机视觉帮助他们将物体归零。
10 月 10 日发表在该杂志上的一项新研究IEEE 机器人与自动化快报研究人员开发了一种名为“Clio”的方法,可以让机器人使用车载摄像头快速绘制场景地图,并通过语音指令识别与分配的任务最相关的部分。
Clio 利用“信息瓶颈”理论,即信息以某种方式压缩,以便神经网络(一组分层模仿人脑处理信息的方式的机器学习算法)仅挑选并存储相关片段。任何配备该系统的机器人都会处理诸如“获取急救箱”之类的指令,然后仅解释与其任务相关的直接环境部分,而忽略其他所有内容。
“例如,假设场景中有一堆书,我的任务只是获取绿皮书。在这种情况下,我们将有关场景的所有信息推送到这个瓶颈,最终得到一组表示绿皮书,”研究合著者多米尼克·马吉奥麻省理工学院的一名研究生在一篇文章中说道陈述。 “所有其他不相关的部分都被分组在一个集群中,我们可以简单地删除它们。我们留下了一个支持我的任务所需的正确粒度的对象。”
有关的:
为了演示 Clio 的实际应用,研究人员使用运行 Clio 的波士顿动力 Spot 四足机器人来探索办公楼并执行一系列任务。 Clio 实时生成一个虚拟地图,仅显示与其任务相关的对象,从而使 Spot 机器人能够完成其目标。
看到、理解、做
研究人员通过结合大型语言模型 (LLM)(支持多个虚拟神经网络),利用 Clio 实现了这种粒度级别工具、系统和服务——经过培训,可以通过计算机视觉识别各种物体。
神经网络在准确识别本地或虚拟环境中的对象方面取得了重大进展,但这些场景通常是精心策划的场景,机器人或人工智能系统经过预先训练可以识别的对象数量有限。 Clio 提供的突破性功能是能够细化实时看到的内容,并与其分配的特定任务相关。
其核心部分是将映射工具合并到 Clio 中,使其能够将场景分割成许多小片段。然后,神经网络挑选出语义相似的片段——这意味着它们服务于相同的意图或形成相似的对象。
实际上,这个想法是让人工智能驱动的机器人能够实时做出直观且有辨别力的以任务为中心的决策,而不是首先尝试处理整个场景或环境。
未来,研究人员计划使 Clio 能够处理更高级别的任务。
“我们仍然给 Clio 分配了一些具体的任务,比如‘找到一副牌’,”马吉奥说。 “对于搜索和救援,你需要赋予它更多高级任务,例如‘寻找幸存者’或‘恢复供电’。”因此,我们希望对如何完成更多任务有更人性化的理解。复杂的任务。”
如果不出意外的话,克里奥可能是让机器狗能够真正玩捡东西的关键——无论它们在哪个公园里跑来跑去。