研究表明，Google的双子座AI与大型数据集斗争。

Google声称其主要生成AI模型Gemini 1.5 Pro和1.5 Flash可以处理和分析大量数据。这家技术巨头强调了模型在新闻发布会和演示中的“长上下文”功能，称他们可以总结数百页的论文或搜索视频录像。但是，最近的研究表明，这些模型可能无法满足期望。

只要“战争与和平”，两项调查就评估了Google的双子座模型在数据集上的性能。结果令人失望。一项研究发现了回答的模型基于文档的考试40％至50％正如TechCrunch报道的正确正确的。

研究人员将双子座AI投入测试

一项研究的共同作者说，Gemini 1.5 Pro在技术上可以处理较长的环境，但是，UMass Amherst博士后研究员Marzena Karpinska说，但是，他们观察到“许多案例表明这些模型实际上并不了解'内容'。”

在产生输出之前，模型可以检查输入数据（例如文本）的“上下文窗口”。最新双子座可以处理200万个令牌，140万个文本，两个小时的视频或22小时的音频。它在商业模型中具有最大的上下文功能。

根据该报告，Google今年早些时候展示了Gemini的长篇小说技巧，它通过Gemini 1.5 Pro扫描Apollo 11 Moon Landing Televed Televed Televed Textript te Televered Textript，以幽默和匹配序列到铅笔素描。 Google DeepMind Research VP Oriol Vinyals称该模型为“神奇”。

在艾伦AI和普林斯顿学院的一项研究中，模型的任务是评估当代小说书中断言的真实性或虚假性。需要模型以验证具有特定信息和情节点的断言。 Flash在260,000字的书中回答了20％的问题，而Gemini 1.5 Pro回答了46.7％。

卡平斯卡（Karpinska）表示，与可以通过检索句子级别的证据来解决的说法相比，AI模型难以确认“考虑“大部分”书籍和整本书的信息，这些信息都需要“考虑到“大部分”和整本书。

第二次UC Santa Barbara研究检查了Gemini 1.5 Flash的视频推理。他们收集了照片和与对象相关的查询。 Flash只能从一系列照片中转录数字50％的时间，随着更多图像降低至30％。

迈克尔·萨克森（Michael Saxon）是加州大学圣塔芭芭拉（UC Santa Barbara）大学的学生兼研究合着者迈克尔·萨克森（UC Santa Barbara Ph.

在这张照片插图中，双子AI在2024年3月18日在纽约市的iPad上看到。迈克尔·圣地亚哥/盖蒂图像

AI设定在风险中改变行业

尽管没有经过同行评审并评估了具有较低上下文窗口的先前模型，但该研究对Google的营销主张提出了争议。包括OpenAI和Anthropic在内的包括评估的模型都没有表现出色，但是Google的上下文窗口焦点引起了人们的关注。

随着企业和投资者因其限制而变得幻想，生成的AI正在评估。波士顿咨询小组调查显示，由于错误和数据安全性，CEO对生成AI的生产力优势保持警惕。

本月初，包括Microsoft支持的OpenAI和Alphabet的Google DeepMind在内的现任和前任工人，引起了人们对人工智能的脆弱性，每个路透社。

11个Openai和两名Google DeepMind工人写了一封公开信，批评AI公司的财务激励措施，称他们抑制了监督。

这封信警告说，未受管理的AI可能会传播虚假信息，削弱自主的AI系统并恶化不平等，这可能导致“人类灭绝”。研究人员还发现，尽管禁止，OpenAI和Microsoft Image Generator都会引起与选举有关的错误信息。

该组织还强调，由于其“弱义务”，政府不能信任AI业务自由披露其系统的功能和限制。

此外，他们敦促AI业务允许现任和前任雇员提出与风险有关的问题，并避免限制批评的机密协议。

尽管有这些担忧，但AI的最新进展是有望改变技术和行业，根据Motley傻瓜的报告。这些先进的系统可能会生成新鲜的材料，简化繁琐的活动，并通过指示自动化程序，提高生产率并降低成本。

目前，投资者正在超越以硬件为中心的AI采用，而不断增长的AI增强软件领域。彭博情报局预计，到2032年，生成的AI软件销售额将达到2800亿美元，增长了18,647％。

研究人员将双子座AI投入测试

AI设定在风险中改变行业

相關貼文