得益於多種因素的結合,像狗一樣的機器人有一天可以學會玩撿東西的遊戲(人工智能)和計算機視覺幫助他們將物體歸零。
10 月 10 日發表在該雜誌上的一項新研究IEEE 機器人與自動化快報研究人員開發了一種名為“Clio”的方法,可以讓機器人使用車載攝像頭快速繪製場景地圖,並通過語音指令識別與分配的任務最相關的部分。
Clio 利用“信息瓶頸”理論,即信息以某種方式壓縮,以便神經網絡(一組分層模仿人腦處理信息的方式的機器學習算法)僅挑選並存儲相關片段。任何配備該系統的機器人都會處理諸如“獲取急救箱”之類的指令,然後僅解釋與其任務相關的直接環境部分,而忽略其他所有內容。
“例如,假設場景中有一堆書,我的任務只是獲取綠皮書。在這種情況下,我們將有關場景的所有信息推過這個瓶頸,最終得到代表綠皮書的一組片段,”研究合著者多米尼克·馬吉奧麻省理工學院的一名研究生在一篇文章中說道陳述。 “所有其他不相關的部分都被分組在一個集群中,我們可以簡單地刪除它們。我們留下了一個支持我的任務所需的正確粒度的對象。”
有關的:
為了演示 Clio 的實際應用,研究人員使用運行 Clio 的波士頓動力 Spot 四足機器人來探索辦公樓並執行一系列任務。 Clio 實時生成一個虛擬地圖,僅顯示與其任務相關的對象,從而使 Spot 機器人能夠完成其目標。
看到、理解、做
研究人員通過結合大型語言模型 (LLM)(支持多個虛擬神經網絡),利用 Clio 實現了這種粒度級別工具、系統和服務——經過培訓,可以通過計算機視覺識別各種物體。
神經網絡在準確識別本地或虛擬環境中的對象方面取得了重大進展,但這些場景通常是精心策劃的場景,機器人或人工智能係統經過預先訓練可以識別的對像數量有限。 Clio 提供的突破性功能是能夠細化實時看到的內容,並與其分配的特定任務相關。
其核心部分是將映射工具合併到 Clio 中,使其能夠將場景分割成許多小片段。然後,神經網絡挑選出語義相似的片段——這意味著它們服務於相同的意圖或形成相似的對象。
實際上,這個想法是讓人工智能驅動的機器人能夠實時做出直觀且有辨別力的以任務為中心的決策,而不是首先嘗試處理整個場景或環境。
未來,研究人員計劃使 Clio 能夠處理更高級別的任務。
“我們仍然給 Clio 分配了一些具體的任務,比如‘找到一副牌’,”馬吉奧說。 “對於搜索和救援,你需要賦予它更多高級任務,例如‘尋找倖存者’或‘恢復供電’。因此,我們希望對如何完成更複雜的任務有更人性化的理解。”
如果不出意外的話,克里奧可能是讓機器狗能夠真正玩撿東西的關鍵——無論它們在哪個公園裡跑來跑去。









