谷歌并不打算让OpenAI在人工智能领域占据领先地位。这家搜索巨头因此推出了 Astra 项目,该项目基于使用 Gemini 多模态模型的人工智能代理原型。
人工智能的未来要么是多模式的,要么不是
仅仅二十四小时后OpenAI 展示其新的 GPT-4o 语言模型,谷歌公布了牧羊人对牧羊女的回应:Astra 项目。通过两分钟的视频呈现作为 Google I/O 大会的一部分,该视频展示了多模态人工智能的潜力。
因此,Gemini 1.5 Turbo AI模型展示了其利用多种数据源(图像、文本、语音、数据等)进行实时处理的能力,从而回答用户的问题。该视频相当令人印象深刻,但与几个小时前的 OpenAI 的 GPT-4o 进行比较时效果不佳。
Astra 项目视频由两部分组成。第一个展示了在 Google Pixel 智能手机上运行的原型,第二个展示了在联网眼镜上运行的原型。代理接收持续的音频和视频输入流,它可以分析这些输入以实时推断其环境,并与测试人员就其所看到的内容进行对话。
这段视频当然是经过精心策划的,但不可否认的是它的效果非常完美。代理首先能够通过指定用户指向的说话者的类型来识别发出声音的对象。然后,后者要求他创建一个关于一罐彩色铅笔的头韵(在一系列接近的单词中重复辅音),然后分析屏幕上显示的部分代码的用途。
示威活动仍在继续,并顺利进行。它出色地展示了会话代理的新环境分析功能。您的意见让我们感兴趣。您对这个演示印象深刻吗?
Google I/O 2024 的其他公告:
Opera One - AI 驱动的网络浏览器
作者:歌剧
来源 : 谷歌