Google声称其主要生成AI模型Gemini 1.5 Pro和1.5 Flash可以处理和分析大量数据。这家技术巨头强调了模型在新闻发布会和演示中的“长上下文”功能,称他们可以总结数百页的论文或搜索视频录像。但是,最近的研究表明,这些模型可能无法满足期望。
只要“战争与和平”,两项调查就评估了Google的双子座模型在数据集上的性能。结果令人失望。一项研究发现了回答的模型基于文档的考试40%至50%正如TechCrunch报道的正确正确的。
研究人员将双子座AI投入测试
一项研究的共同作者说,Gemini 1.5 Pro在技术上可以处理较长的环境,但是,UMass Amherst博士后研究员Marzena Karpinska说,但是,他们观察到“许多案例表明这些模型实际上并不了解'内容'。”
在产生输出之前,模型可以检查输入数据(例如文本)的“上下文窗口”。最新双子座可以处理200万个令牌,140万个文本,两个小时的视频或22小时的音频。它在商业模型中具有最大的上下文功能。
根据该报告,Google今年早些时候展示了Gemini的长篇小说技巧,它通过Gemini 1.5 Pro扫描Apollo 11 Moon Landing Televed Televed Televed Textript te Televered Textript,以幽默和匹配序列到铅笔素描。 Google DeepMind Research VP Oriol Vinyals称该模型为“神奇”。
在艾伦AI和普林斯顿学院的一项研究中,模型的任务是评估当代小说书中断言的真实性或虚假性。需要模型以验证具有特定信息和情节点的断言。 Flash在260,000字的书中回答了20%的问题,而Gemini 1.5 Pro回答了46.7%。
卡平斯卡(Karpinska)表示,与可以通过检索句子级别的证据来解决的说法相比,AI模型难以确认“考虑“大部分”书籍和整本书的信息,这些信息都需要“考虑到“大部分”和整本书。
第二次UC Santa Barbara研究检查了Gemini 1.5 Flash的视频推理。他们收集了照片和与对象相关的查询。 Flash只能从一系列照片中转录数字50%的时间,随着更多图像降低至30%。
迈克尔·萨克森(Michael Saxon)是加州大学圣塔芭芭拉(UC Santa Barbara)大学的学生兼研究合着者迈克尔·萨克森(UC Santa Barbara Ph.

AI设定在风险中改变行业
尽管没有经过同行评审并评估了具有较低上下文窗口的先前模型,但该研究对Google的营销主张提出了争议。包括OpenAI和Anthropic在内的包括评估的模型都没有表现出色,但是Google的上下文窗口焦点引起了人们的关注。
随着企业和投资者因其限制而变得幻想,生成的AI正在评估。波士顿咨询小组调查显示,由于错误和数据安全性,CEO对生成AI的生产力优势保持警惕。
本月初,包括Microsoft支持的OpenAI和Alphabet的Google DeepMind在内的现任和前任工人,引起了人们对人工智能的脆弱性,每个路透社。
11个Openai和两名Google DeepMind工人写了一封公开信,批评AI公司的财务激励措施,称他们抑制了监督。
这封信警告说,未受管理的AI可能会传播虚假信息,削弱自主的AI系统并恶化不平等,这可能导致“人类灭绝”。研究人员还发现,尽管禁止,OpenAI和Microsoft Image Generator都会引起与选举有关的错误信息。
该组织还强调,由于其“弱义务”,政府不能信任AI业务自由披露其系统的功能和限制。
此外,他们敦促AI业务允许现任和前任雇员提出与风险有关的问题,并避免限制批评的机密协议。
尽管有这些担忧,但AI的最新进展是有望改变技术和行业,根据Motley傻瓜的报告。这些先进的系统可能会生成新鲜的材料,简化繁琐的活动,并通过指示自动化程序,提高生产率并降低成本。
目前,投资者正在超越以硬件为中心的AI采用,而不断增长的AI增强软件领域。彭博情报局预计,到2032年,生成的AI软件销售额将达到2800亿美元,增长了18,647%。
