研究表明，Google的雙子座AI與大型數據集鬥爭。

Google聲稱其主要生成AI模型Gemini 1.5 Pro和1.5 Flash可以處理和分析大量數據。這家技術巨頭強調了模型在新聞發布會和演示中的“長上下文”功能，稱他們可以總結數百頁的論文或搜索視頻錄像。但是，最近的研究表明，這些模型可能無法滿足期望。

只要“戰爭與和平”，兩項調查就評估了Google的雙子座模型在數據集上的性能。結果令人失望。一項研究發現了回答的模型基於文檔的考試40％至50％正如TechCrunch報導的正確正確的。

研究人員將雙子座AI投入測試

一項研究的共同作者說，Gemini 1.5 Pro在技術上可以處理較長的環境，但是，UMass Amherst博士後研究員Marzena Karpinska說，但是，他們觀察到“許多案例表明這些模型實際上並不了解'內容'。”

在產生輸出之前，模型可以檢查輸入數據（例如文本）的“上下文窗口”。最新雙子座可以處理200萬個令牌，140萬個文本，兩個小時的視頻或22小時的音頻。它在商業模型中具有最大的上下文功能。

根據該報告，Google今年早些時候展示了Gemini的長篇小說技巧，它通過Gemini 1.5 Pro掃描Apollo 11 Moon Landing Televed Televed Televed Textript te Televered Textript，以幽默和匹配序列到鉛筆素描。 Google DeepMind Research VP Oriol Vinyals稱該模型為“神奇”。

在艾倫AI和普林斯頓學院的一項研究中，模型的任務是評估當代小說書中斷言的真實性或虛假性。需要模型以驗證具有特定信息和情節點的斷言。 Flash在260,000字的書中回答了20％的問題，而Gemini 1.5 Pro回答了46.7％。

卡平斯卡（Karpinska）表示，與可以通過檢索句子級別的證據來解決的說法相比，AI模型難以確認“考慮“大部分”書籍和整本書的信息，這些信息都需要“考慮到“大部分”和整本書。

第二次UC Santa Barbara研究檢查了Gemini 1.5 Flash的視頻推理。他們收集了照片和與對象相關的查詢。 Flash只能從一系列照片中轉錄數字50％的時間，隨著更多圖像降低至30％。

邁克爾·薩克森（Michael Saxon）是加州大學聖塔芭芭拉（UC Santa Barbara）大學的學生兼研究合著者邁克爾·薩克森（UC Santa Barbara Ph.

在這張照片插圖中，雙子AI在2024年3月18日在紐約市的iPad上看到。邁克爾·聖地亞哥/蓋蒂圖像

AI設定在風險中改變行業

儘管沒有經過同行評審並評估了具有較低上下文窗口的先前模型，但該研究對Google的營銷主張提出了爭議。包括OpenAI和Anthropic在內的包括評估的模型都沒有表現出色，但是Google的上下文窗口焦點引起了人們的關注。

隨著企業和投資者因其限製而變得幻想，生成的AI正在評估。波士頓諮詢小組調查顯示，由於錯誤和數據安全性，CEO對生成AI的生產力優勢保持警惕。

本月初，包括Microsoft支持的OpenAI和Alphabet的Google DeepMind在內的現任和前任工人，引起了人們對人工智能的脆弱性，每個路透社。

11個Openai和兩名Google DeepMind工人寫了一封公開信，批評AI公司的財務激勵措施，稱他們抑制了監督。

這封信警告說，未受管理的AI可能會傳播虛假信息，削弱自主的AI系統並惡化不平等，這可能導致“人類滅絕”。研究人員還發現，儘管禁止，OpenAI和Microsoft Image Generator都會引起與選舉有關的錯誤信息。

該組織還強調，由於其“弱義務”，政府不能信任AI業務自由披露其係統的功能和限制。

此外，他們敦促AI業務允許現任和前任僱員提出與風險有關的問題，並避免限制批評的機密協議。

儘管有這些擔憂，但AI的最新進展是有望改變技術和行業，根據Motley傻瓜的報告。這些先進的系統可能會生成新鮮的材料，簡化繁瑣的活動，並通過指示自動化程序，提高生產率並降低成本。

目前，投資者正在超越以硬件為中心的AI採用，而不斷增長的AI增強軟件領域。彭博情報局預計，到2032年，生成的AI軟件銷售額將達到2800億美元，增長了18,647％。

研究人員將雙子座AI投入測試

AI設定在風險中改變行業

相關貼文