人工智能(AI)在Alphabet的中心舞台(GOOGL)年度開發人員會議,Google I/O,該公司推出了幾項新的AI計劃。這是關鍵要點。
雙子座驅動的AI助手以語音和視頻功能即將推出
Google介紹了Gemini Live,語音AI代理和Project Astra,這是一個原型AI助手,對視頻輸入做出了響應。
Gemini Live定於夏季來臨,它擴展了Gemini的多模式功能,使用戶“使用您的聲音進行了深入的雙向對話”。
Google還展示了一個視頻演示,其AI代理Project Astra能夠識別攝像機供稿上顯示的對象,並了解計算機屏幕上顯示的代碼以及其他任務。
Google新聞是Microsoft Basked的第二天(MSFT)Openai宣布由新的GPT-4O型號提供動力的CHATGPT上的語音功能。
AI產生的圖像,視頻和音樂
Google分別推出了AI驅動的生成工具,用於圖像,視頻和音樂,分別稱為Imagen 3,VEO和Music AI Sandbox。
該公司介紹了Imagen 3,這是一種文本對像生成模型。 Google說,在與其他圖像生成器的並排比較中,該圖像生成器是優選的。
Alphabet的首席執行官Sundar Pichai表示,這是“渲染文本的最佳模型”,這通常表明圖像是AI生成的。用戶可以註冊以在Labs.google和其AI工作區域上嘗試Imagen 3,後來它將出現在開發人員和企業客戶身上。
對於生成視頻,Google宣布了VEO,可以從文本和視頻提示中創建視頻內容。該系統還具有實驗性視頻效果工具。該公司表示,某些VEO功能將用於Labs.google上的一些創作者。
Google報導說,它一直在與YouTube合作,創建一個名為Music AI Sandbox的音樂生成器。該公司表示,該工具已與藝術家進行了設計和測試。
由Gemini提供支持的AI概述,將多步推理帶到Google搜索中,將於週二開始在美國推出。
該工具總結了頁面頂部的搜索內容。它可以使用Google的其他服務(例如地圖)的數據來回答用戶的打字問題以及回答視頻輸入。
該公司表示,AI概述將很快在其他國家 /地區提供。
Pichai說:“ Google搜索是人類好奇心的生成性AI。
將Google AI集成到Android設備中
Google宣布,其AI Tech將通過Gemini Nano(最小的雙子座模型)集成到Android設備中,以在本地運行AI。
該公司表示,今年晚些時候,像素手機將通過雙子座Nano具有多模式的AI功能。 Google員工在活動中解釋說:“這意味著您的手機可以理解您的理解方式。”他補充說,使用Google Nano,設備可以響應文本,視覺和音頻輸入。
該模型使用從用戶手機收集的上下文並在設備上本地運行工作負載,這可能最大程度地減少了一些隱私問題。本地運行的AI技術可以最大程度地減少在遠程服務器上運行AI時可能發生的延遲,並且由於所有工作都在設備上發生,因此無需Internet連接即可工作。
Gemini 1.5,Gemma更新和下一代硬件
該公司宣布了其AI型號Gemini 1.5 Pro的改進,推出了新的Gemini 1.5 Flash模型,並添加了兩個新的Gemma型號,並發布了其張量處理單元(TPU)的新版本。
Gemini 1.5 Pro的更改包括改進翻譯,編碼,推理和其他用途,以提高質量。新的Gemini 1.5 Flash是一個較小的模型,可針對優先級的更定定義的任務進行了優化。 Gemini 1.5 Pro和Gemini 1.5 Flash均可在周二開始的預覽中獲得,通常將於6月份使用。
Google還推出了Google的“輕量級開放型”系列Gemma的兩種新型號,即Paligemma和Gemma 2。 Paligemma是一種視覺開放模型,該公司說,該模型是第一個此類公開模型,該模型是在星期二獲得的。 Gemma 2是六月的下一代Gemma。
Google揭開了其第六代TPU Trillim,該公司表示,與其前身相比,該公司的每芯片計算性能提高了4.7倍。該公司還重申,這將是最早的雲提供商之一在2025年初提供NVIDIA的Blackwell GPU。