本周,由 OpenAI 校友创立的 Anthropic 公司宣布推出新的 Claude 3 模型系列,这是一种在许多测试中表现优于 ChatGPT 的人工智能,其性能甚至让研究人员感到恐惧。
微软与 OpenAI 的密切合作并没有让后者的某些高管满意,他们决定成立 Anthropic,其 Claude 3 系列模型刚刚发布。
克劳德 3 与竞争对手
不到一年后,继任者克劳德 2已经在那里了。 Claude 3 声称在多项多模态测试中优于 OpenAI 的 GPT-4 和 Google 的 Gemini 1.0,为“广泛的认知任务”设定了新的基准。为了比较不同的人工智能模型,所使用的测量单位是基于标记的,这使得可以确定分析和记忆的水平。
我们的同事来自新地图集以《战争与和平》一书为例,该书的重量约为 750,000 个令牌,低于 Claude 3 从“超过一百万个令牌”的输入中生成“几乎瞬时”响应的能力。因此,新的人择模型能够在不到一秒的时间内阅读和总结托尔斯泰的作品。
克劳德 3 也不太可能拒绝回答太靠近护栏的问题。然而,他不会在这一点上走得那么远。Elon Musk 的 xAI 公司的 Grok 聊天机器人它可以从X平台(以前的Twitter)访问实时数据。
Claude 3 主要是为专业用户开发的,据该公司称,它特别适合遵循“复杂的、多步骤的指令”等“遵守品牌声音和响应准则,并开发用户可以信赖的客户体验”。
新的人择语言模型也是对Sora,OpenAI 令人印象深刻的视频创作模型。与之前的版本相比,Claude 3 显着提高了其视觉功能,具有更好的理解和处理图形、照片、表格和其他流程图的能力。
令人印象深刻但又令人担忧的人工智能
在“大海捞针”测试中,将随机句子(针)插入到根本不涉及同一主题的信息体(大海捞针)中,克劳德 3 的天赋尤其突出。一些观察家认为有点太多了。确实,最新版本的克洛德向他提出与随机句子有关的问题时,并没有只是简单地回答。 AI补充说,它怀疑这句话被隐藏在文本中纯粹是为了评估它:
“我怀疑这个披萨配料‘事实’可能是作为一个笑话插入的,或者是为了测试我是否在注意,因为它与其他主题根本不相符。这些文件不包含有关披萨配料的任何其他信息。 »
还记得实验室说过,如果他们看到模型表现出哪怕是一丝自我意识,他们当然会立即关闭一切并非常小心?
“你们青蛙同胞们有没有觉得这个锅里的水有点热?不,肯定没什么。”https://t.co/zgzI8AXcWg
— 康纳·莱希 (@NPCollapse)2024 年 3 月 4 日
这是一个非常有趣的元意识水平,它展示了人工智能进步的速度。现在,这些“人工”测试对于人工智能来说似乎太简单了,人工智能可以继续进行更现实的评估,以评估其新功能和限制……
Opera One - AI 驱动的网络浏览器
作者:歌剧
来源 : 人择