5個Alphabet的Google I/O開發人員會議主題演講的5點

人工智能（AI）在Alphabet的中心舞台（GOOGL）年度開發人員會議，Google I/O，該公司推出了幾項新的AI計劃。這是關鍵要點。

雙子座驅動的AI助手以語音和視頻功能即將推出

Google介紹了Gemini Live，語音AI代理和Project Astra，這是一個原型AI助手，對視頻輸入做出了響應。

Gemini Live定於夏季來臨，它擴展了Gemini的多模式功能，使用戶“使用您的聲音進行了深入的雙向對話”。

Google還展示了一個視頻演示，其AI代理Project Astra能夠識別攝像機供稿上顯示的對象，並了解計算機屏幕上顯示的代碼以及其他任務。

Google新聞是Microsoft Basked的第二天（MSFT）Openai宣布由新的GPT-4O型號提供動力的CHATGPT上的語音功能。

Google分別推出了AI驅動的生成工具，用於圖像，視頻和音樂，分別稱為Imagen 3，VEO和Music AI Sandbox。

該公司介紹了Imagen 3，這是一種文本對像生成模型。 Google說，在與其他圖像生成器的並排比較中，該圖像生成器是優選的。

Alphabet的首席執行官Sundar Pichai表示，這是“渲染文本的最佳模型”，這通常表明圖像是AI生成的。用戶可以註冊以在Labs.google和其AI工作區域上嘗試Imagen 3，後來它將出現在開發人員和企業客戶身上。

對於生成視頻，Google宣布了VEO，可以從文本和視頻提示中創建視頻內容。該系統還具有實驗性視頻效果工具。該公司表示，某些VEO功能將用於Labs.google上的一些創作者。

Google報導說，它一直在與YouTube合作，創建一個名為Music AI Sandbox的音樂生成器。該公司表示，該工具已與藝術家進行了設計和測試。

由Gemini提供支持的AI概述，將多步推理帶到Google搜索中，將於週二開始在美國推出。

該工具總結了頁面頂部的搜索內容。它可以使用Google的其他服務（例如地圖）的數據來回答用戶的打字問題以及回答視頻輸入。

該公司表示，AI概述將很快在其他國家 /地區提供。

Pichai說：“ Google搜索是人類好奇心的生成性AI。

Google宣布，其AI Tech將通過Gemini Nano（最小的雙子座模型）集成到Android設備中，以在本地運行AI。

該公司表示，今年晚些時候，像素手機將通過雙子座Nano具有多模式的AI功能。 Google員工在活動中解釋說：“這意味著您的手機可以理解您的理解方式。”他補充說，使用Google Nano，設備可以響應文本，視覺和音頻輸入。

該模型使用從用戶手機收集的上下文並在設備上本地運行工作負載，這可能最大程度地減少了一些隱私問題。本地運行的AI技術可以最大程度地減少在遠程服務器上運行AI時可能發生的延遲，並且由於所有工作都在設備上發生，因此無需Internet連接即可工作。

該公司宣布了其AI型號Gemini 1.5 Pro的改進，推出了新的Gemini 1.5 Flash模型，並添加了兩個新的Gemma型號，並發布了其張量處理單元（TPU）的新版本。

Gemini 1.5 Pro的更改包括改進翻譯，編碼，推理和其他用途，以提高質量。新的Gemini 1.5 Flash是一個較小的模型，可針對優先級的更定定義的任務進行了優化。 Gemini 1.5 Pro和Gemini 1.5 Flash均可在周二開始的預覽中獲得，通常將於6月份使用。

Google還推出了Google的“輕量級開放型”系列Gemma的兩種新型號，即Paligemma和Gemma 2。 Paligemma是一種視覺開放模型，該公司說，該模型是第一個此類公開模型，該模型是在星期二獲得的。 Gemma 2是六月的下一代Gemma。

Google揭開了其第六代TPU Trillim，該公司表示，與其前身相比，該公司的每芯片計算性能提高了4.7倍。該公司還重申，這將是最早的雲提供商之一在2025年初提供NVIDIA的Blackwell GPU。