OpenAI 今晚渴望通过揭开其新 GPT-4o 语言模型的面纱来标志着自己的领地,该模型为 ChatGPT 提供了令人惊叹的多模式功能 - Siri 和其他助手最好小心。
OpenAI 在 Google I/O 大会宣布的前一天揭开了其新语言模型的面纱,这可能并非纯粹的巧合——该搜索引擎无疑将在那里展示其新的人工智能功能。
等待,GPT-4o(o 代表“omni”)表示更接近“更自然的人机交互»。
像人一样与助理交谈
该模型是 ChatGPT 的核心,它接受并生成文本、音频和图像的组合。该机器人的语音对对话者的响应时间平均为 320 毫秒,与人类在对话中的响应时间相似。 GPT-4o 在英语以外的语言文本上也表现更好,并且在对象识别和理解音频方面也表现得更好。声音的改进尤其引人注目,重音和转调堪比人声。令人不安……
这些多模态能力是结合文本、视觉和音频的新模型形成的结果;到目前为止,使用了三种不同的模型,从而增加了响应时间。
GPT-4o 的文本和图像功能从今天开始在 ChatGPT 中向付费订阅者和免费访问者推出。那些支付 ChatGPT Plus 费用的人将受益于消息限制的增加(可以延长 5 倍)。在未来几周内,GPT-4o 语音支持将在 alpha 版中为付费订户提供。
新的 macOS 界面和软件
这还不是全部。 OpenAI 还推出了 ChatGPT 网页版的新界面,其目标是“更友好、更健谈»。
Mac 用户将会进入天堂,因为macOS 应用程序正在开发中!目前,付费用户通常可以使用它,但由于 GPT-4o(GPT-4 语音模式已经集成,但速度较慢),它将允许以文本方式进行对话,但将来也可以以音频和视频方式进行对话。该软件还将向所有用户提供,包括免费的。
使用键盘快捷键 Option + Space,可以显示机器人窗口。您无需打开专用应用程序即可向他提问,甚至可以添加附件来丰富对话。适用于 Windows 的 ChatGPT 软件版本也正在开发中。
Opera One - AI 驱动的网络浏览器
作者:歌剧