Google聲稱其主要生成AI模型Gemini 1.5 Pro和1.5 Flash可以處理和分析大量數據。這家技術巨頭強調了模型在新聞發布會和演示中的“長上下文”功能,稱他們可以總結數百頁的論文或搜索視頻錄像。但是,最近的研究表明,這些模型可能無法滿足期望。
只要“戰爭與和平”,兩項調查就評估了Google的雙子座模型在數據集上的性能。結果令人失望。一項研究發現了回答的模型基於文檔的考試40%至50%正如TechCrunch報導的正確正確的。
研究人員將雙子座AI投入測試
一項研究的共同作者說,Gemini 1.5 Pro在技術上可以處理較長的環境,但是,UMass Amherst博士後研究員Marzena Karpinska說,但是,他們觀察到“許多案例表明這些模型實際上並不了解'內容'。”
在產生輸出之前,模型可以檢查輸入數據(例如文本)的“上下文窗口”。最新雙子座可以處理200萬個令牌,140萬個文本,兩個小時的視頻或22小時的音頻。它在商業模型中具有最大的上下文功能。
根據該報告,Google今年早些時候展示了Gemini的長篇小說技巧,它通過Gemini 1.5 Pro掃描Apollo 11 Moon Landing Televed Televed Televed Textript te Televered Textript,以幽默和匹配序列到鉛筆素描。 Google DeepMind Research VP Oriol Vinyals稱該模型為“神奇”。
在艾倫AI和普林斯頓學院的一項研究中,模型的任務是評估當代小說書中斷言的真實性或虛假性。需要模型以驗證具有特定信息和情節點的斷言。 Flash在260,000字的書中回答了20%的問題,而Gemini 1.5 Pro回答了46.7%。
卡平斯卡(Karpinska)表示,與可以通過檢索句子級別的證據來解決的說法相比,AI模型難以確認“考慮“大部分”書籍和整本書的信息,這些信息都需要“考慮到“大部分”和整本書。
第二次UC Santa Barbara研究檢查了Gemini 1.5 Flash的視頻推理。他們收集了照片和與對象相關的查詢。 Flash只能從一系列照片中轉錄數字50%的時間,隨著更多圖像降低至30%。
邁克爾·薩克森(Michael Saxon)是加州大學聖塔芭芭拉(UC Santa Barbara)大學的學生兼研究合著者邁克爾·薩克森(UC Santa Barbara Ph.

AI設定在風險中改變行業
儘管沒有經過同行評審並評估了具有較低上下文窗口的先前模型,但該研究對Google的營銷主張提出了爭議。包括OpenAI和Anthropic在內的包括評估的模型都沒有表現出色,但是Google的上下文窗口焦點引起了人們的關注。
隨著企業和投資者因其限製而變得幻想,生成的AI正在評估。波士頓諮詢小組調查顯示,由於錯誤和數據安全性,CEO對生成AI的生產力優勢保持警惕。
本月初,包括Microsoft支持的OpenAI和Alphabet的Google DeepMind在內的現任和前任工人,引起了人們對人工智能的脆弱性,每個路透社。
11個Openai和兩名Google DeepMind工人寫了一封公開信,批評AI公司的財務激勵措施,稱他們抑制了監督。
這封信警告說,未受管理的AI可能會傳播虛假信息,削弱自主的AI系統並惡化不平等,這可能導致“人類滅絕”。研究人員還發現,儘管禁止,OpenAI和Microsoft Image Generator都會引起與選舉有關的錯誤信息。
該組織還強調,由於其“弱義務”,政府不能信任AI業務自由披露其係統的功能和限制。
此外,他們敦促AI業務允許現任和前任僱員提出與風險有關的問題,並避免限制批評的機密協議。
儘管有這些擔憂,但AI的最新進展是有望改變技術和行業,根據Motley傻瓜的報告。這些先進的系統可能會生成新鮮的材料,簡化繁瑣的活動,並通過指示自動化程序,提高生產率並降低成本。
目前,投資者正在超越以硬件為中心的AI採用,而不斷增長的AI增強軟件領域。彭博情報局預計,到2032年,生成的AI軟件銷售額將達到2800億美元,增長了18,647%。
