要知道什么
- ChatGPT 高级语音模式缺少许多重要功能,例如多模式功能和保持通话按钮,并且有时会被审查到无法使用的程度。
- 另一方面,它的表达能力也很强,可以说多种语言、口音和地方方言。但它不能唱歌、哼哼或与你调情(OpenAI 不允许)。
- ChatGPT 高级语音模式每月向免费用户开放 15 分钟。对于 Plus 用户,每日有 1 小时的硬性限制。
自从演示以来,我们都渴望使用 ChatGPT 的高级语音模式。但在经历了一些法律障碍和发布延迟之后,它仍然受到限制、功能缺失和一些误解的选项的严重限制,这些选项未能使其成为我们相信的电影内容。
无论 OpenAI 让您每天与新模型交谈的时间有多短,您都可以对其能力、问题和潜力做出公正的评估。考虑到这一点,以下是我对 ChatGPT 高级语音模式的极其诚实的想法——什么是伟大的,什么是不好的,以及为什么拥有一个拥有性感声音的助手的梦想仍然需要几次迭代。
适合所有人的高级语音模式!但没有承诺的功能
随着向所有用户发布高级语音模式(在移动应用程序上使用 ChatGPT 帐户),OpenAI 现在可以让任何人与其所谓的突破性语音对语音模型进行对话。免费用户得到不超过每月 15 分钟对话, 尽管加用户四处走走每天一小时,每日限额会根据服务器容量而变化。一旦时间到了,你就必须切换到速度慢得多且乏味的标准语音模式。
但在你开始闲聊之前,首先要调整你的期望。因为您会发现演示期间展示的许多功能目前对免费用户和 Plus 用户不可用。高级语音模式是不是多式联运目前尚不具备分析声音、图像或视频的能力。因此它无法阅读您的平装本,也无法判断您举起的是哪根手指。我无法让它唱歌或告诉我正在演奏哪种乐器(吉他)。因此,有几个承诺的功能尚未实现。
高级语音模式的正确之处
即使没有承诺的功能,ChatGPT 的高级模式也有一些正确的功能。虽然不是很多,但为了公平起见还是值得一提的。
声音不错,但没有天空
有九种声音供您选择:
- Sol (F) – 精明且轻松
- Ember (M) – 自信和乐观
- Arbor (M) – 随和且多才多艺
- Vale (F) – 聪明且好奇
- 枫 (F) – 开朗、坦诚
- 杜松 (F) – 开放、乐观
- Cove (M) – 沉着而直接
- 云杉 (M) – 冷静和肯定
- Breeze (男/女) – 活泼而认真
我错过了什么吗?哦,是的,没有天空。但其余的声音绝不是降级的声音。它们多种多样,而且听起来很有趣。但就那个失踪的声音而言,可以肯定的是。那么让我们继续吧。
善于表达、会说多种语言的健谈者
无论对高级语音模式有什么抱怨,有一点你不能否认——它令人印象深刻。与标准模式相比,延迟非常低,有利于自然对话。它可以理解并使用 50 多种语言进行交流。事实上,您可以将其用作语音训练器、翻译器或语言老师。
它不会做声音印象,但如果你问的话,它会告诉你一些口音——从美国南部到英国伦敦到孟加拉语以及介于两者之间的一切。
相比,声音互动好多了,不会让人感觉很匆忙。所以实际上感觉就像 ChatGPT 高级语音模式一样为了你。
ChatGPT 能理解你的情绪吗?
呃……可以说。尽管 OpenAI 声称 ChatGPT 可以识别说话者的语气和情绪,但一些用户对此表示怀疑。虽然有一些用户认为 ChatGPT 可以,但一些用户认为它只能根据单词选择和上下文线索推断语气。
一用户假设不是“将来自用户的音频直接输入到 GPT-4o”,而是先将用户音频转换为文本,然后将文本发送到 GPT-4o 以生成音频。这就是为什么它无法听到你声音中的语气或情绪,也无法捕捉到你的呼吸,因为这些东西无法用文本编码。”
事实上,高级语音模式也可以与 GPT-4(它具有文本到语音,而不是语音到语音)一起使用,这一事实使我们相信 ChatGPT 实际上无法理解语气。
另一方面,也有人说确实如此。因此,陪审团仍在争论中。
现在,让我们开始讨论实际问题。因为无论演示多么鼓舞人心,重要的是你我自己实际上可以用它做什么。不幸的是,数量并不多。原因如下。
严格审查和限制
所有人工智能聊天机器人都倾向于过于谨慎,甚至可能有点过头了。这是可以理解的——公司不希望他们的聊天机器人形成意见或发表可能给他们带来负面影响的事情。但谨慎和审查之间只有一线之隔,ChatGPT 的高级语音模式坚定地站在后者一边。
谈论任何明确的或有争议的事情都是禁止的,但这很好。但由于规则过于严格,高级语音模式有时会拒绝谈论最无害的请求。那些正在查看免费试用版的人可能没有足够的机会遇到此类问题。但 Plus 用户的对话时间多一点,肯定会时不时地偶然发现它。
知道 ChatGPT 可能会拒绝您的请求并让您陷入困境,这既麻烦又令人失望。
中断阈值很低
大多数用户都同意的一件事是它的中断阈值非常低。最轻微的停顿都会触发 ChatGPT 认为现在“轮到”说话了。如果您暂停超过一秒,ChatGPT 将开始说话。这可能会产生问题,尤其是因为我们在说话之前都需要一些时间思考,即使时间很简短。
必须重新介入才能一遍又一遍地问完问题,这可能会打乱你的思路,让你无法进行除了表面层面的对话之外的任何事情。如果有一个保持通话按钮,这个问题就可以轻松解决。
不幸的是,标准语音模式中存在的保持讲话按钮在高级语音模式中缺失。只有一个静音和一个结束通话按钮。因此,您的请求中不能有任何长时间的思考停顿,否则 ChatGPT 会在它认为您的请求结束时介入。
与主题限制等其他更棘手的问题相比,这个问题更容易修复。通过简单地在 UI 中添加保持讲话选项,ChatGPT 高级语音模式可以以用户为中心十倍。
访问文字记录很有用。但是,即使 ChatGPT 理解并正确回答,记录中仍会缺少一些请求。
其他(奇怪和令人毛骨悚然的)问题
在与 ChatGPT 的高级语音模式交谈时,确实会出现一些令人不安且常常令人费解的情况。有几次,ChatGPT 以西班牙语开始聊天,尽管我从未用该语言进行过交互或更改过其设置。
一用户提到ChatGPT曾经“无缘无故地尖叫,另一次声音听起来很机械,还有一次它使用了完全不同的声音”。
这些可能是声音模型中显现的幻觉,或者是更邪恶的东西。不管是什么,都不好。
判决
即使延迟推出后,ChatGPT 高级语音模式似乎也无法用于日常交互。目前,它只是另一款花哨的人工智能游戏,尽管上限非常高。
尽管存在主题限制和令牌限制,ChatGPT 的高级模式在很大程度上仍是一项正在进行的工作,尚未配备 OpenAI 如此大张旗鼓地演示的功能。
OpenAI一次用户最终可能会与声音形成情感联系。但它可能有些超前了。从用户界面到聊天限制,都有足够的改进空间。
但就目前而言,高级语音模式与竞争对手并没有太大区别。如果说有什么不同的话,那就是它在免费可用性方面表现不佳,而 Gemini Live 尽管可能存在缺陷,但任何人都可以访问。