谷歌並不打算讓OpenAI在人工智慧競賽中佔據領先地位。這家搜尋巨頭因此推出了 Astra 項目,該項目基於使用 Gemini 多模態模型的人工智慧代理原型。
人工智慧的未來要不是多模式的,就是不是
僅僅二十四小時後OpenAI 展示其新的 GPT-4o 語言模型,谷歌公佈了牧羊人對牧羊女的回應:Astra 計畫。透過兩分鐘的影片呈現作為 Google I/O 大會的一部分,該影片展示了多模態人工智慧的潛力。
因此,Gemini 1.5 Turbo AI模型展示了其利用多種資料來源(影像、文字、語音、資料等)進行即時處理的能力,從而回答使用者的問題。影片相當令人印象深刻,但與幾個小時前的 OpenAI 的 GPT-4o 進行比較時效果不佳。
Astra 專案影片由兩部分組成。第一個展示了在 Google Pixel 智慧型手機上運行的原型,第二個展示了在連網眼鏡上運行的原型。代理商接收持續的音訊和視訊輸入串流,它可以分析這些輸入以即時推斷其環境,並與測試人員就其所看到的內容進行對話。
這段影片當然是經過精心策劃的,但不可否認的是它的效果非常完美。代理人首先能夠透過指定使用者指向的說話者的類型來辨識發出聲音的物件。然後,後者要求他創建一個關於一罐彩色鉛筆的頭韻(在一系列接近的單字中重複輔音),然後分析螢幕上顯示的部分代碼的用途。
示威活動仍在繼續,並順利進行。它出色地展示了會話代理的新環境分析功能。您的意見讓我們感興趣。您對這個演示印象深刻嗎?
Google I/O 2024 的其他公告:
Opera One - AI 驅動的網頁瀏覽器
作者:歌劇
來源 : Google