由於多種因素的結合,像狗一樣的機器人有一天可以學會玩撿東西的遊戲(人工智慧)和電腦視覺幫助他們將物體歸零。
10 月 10 日發表在期刊上的一項新研究IEEE 機器人與自動化快報研究人員開發了一種名為「Clio」的方法,可以讓機器人使用車載攝影機快速繪製場景地圖,並透過語音指令識別與指派的任務最相關的部分。
Clio 利用「資訊瓶頸」理論,即資訊以某種方式壓縮,以便神經網路(一組分層模仿人腦處理資訊的方式的機器學習演算法)僅挑選並儲存相關片段。任何配備該系統的機器人都會處理諸如「獲取急救箱」之類的指令,然後僅解釋與其任務相關的直接環境部分,而忽略其他所有內容。
「例如,假設場景中有一堆書,我的任務只是獲取綠皮書。在這種情況下,我們將有關場景的所有資訊推過這個瓶頸,最終得到一組代表書的片段。綠皮書, 」研究合著者多明尼克·馬吉奧麻省理工學院的一名研究生在一篇文章中說道陳述。 “所有其他不相關的部分都被分組在一個集群中,我們可以簡單地刪除它們。我們留下了一個支持我的任務所需的正確粒度的對象。”
有關的:
為了展示 Clio 的實際應用,研究人員使用運行 Clio 的波士頓動力 Spot 四足機器人來探索辦公大樓並執行一系列任務。 Clio 即時產生一個虛擬地圖,僅顯示與其任務相關的對象,使 Spot 機器人能夠完成其目標。
看到、理解、做
研究人員透過結合大型語言模型 (LLM)(支援多個虛擬神經網路),利用 Clio 實現了這種粒度級別工具、系統和服務——經過培訓,可以透過電腦視覺識別各種物體。
神經網路在準確識別本地或虛擬環境中的物件方面取得了重大進展,但這些場景通常是精心策劃的場景,機器人或人工智慧系統經過預先訓練可以識別的物件數量有限。 Clio 提供的突破性功能是能夠細化即時看到的內容,並與其指派的特定任務相關。
其核心部分是將映射工具合併到 Clio 中,使其能夠將場景分割成許多小片段。然後,神經網路挑選出語義相似的片段——這意味著它們服務於相同的意圖或形成相似的物件。
實際上,這個想法是讓人工智慧驅動的機器人能夠即時做出直覺且有辨別力的以任務為中心的決策,而不是先嘗試處理整個場景或環境。
未來,研究人員計劃使 Clio 能夠處理更高層級的任務。
“我們仍然給 Clio 分配了一些具體的任務,例如‘找到一副牌’,”馬吉奧說。 「對於搜救,你需要賦予它更多高級任務,例如『尋找倖存者』或『恢復供電』。」因此,我們希望對如何完成更多任務有更人性化的理解。
如果不出意外的話,克里奧可能是讓機器狗能夠真正玩撿東西的關鍵——無論它們在哪個公園裡跑來跑去。