要知道什麼
- ChatGPT 進階語音模式缺少許多重要功能,例如多模式功能和保持通話按鈕,有時會被審查到無法使用的程度。
- 另一方面,它的表達能力也很強,可以說多種語言、口音和地方方言。但它不能唱歌、哼哼或與你調情(OpenAI 不允許)。
- ChatGPT 高級語音模式每月向免費用戶開放 15 分鐘。對於 Plus 用戶,每日有 1 小時的硬性限制。
自從演示以來,我們都渴望使用 ChatGPT 的高級語音模式。但在經歷了一些法律障礙和發布延遲之後,它仍然受到限制、功能缺失和一些誤解的選項的嚴重限制,這些選項未能使其成為我們相信的電影內容。
無論 OpenAI 讓您每天與新模型交談的時間有多短,您都可以對其能力、問題和潛力做出公正的評估。考慮到這一點,以下是我對 ChatGPT 高級語音模式的極其誠實的想法——什麼是偉大的,什麼是不好的,以及為什麼擁有一個擁有性感聲音的助手的夢想仍然需要幾次迭代。
適合所有人的高級語音模式!但沒有承諾的功能
隨著向所有用戶發布高級語音模式(在行動應用程式上使用 ChatGPT 帳戶),OpenAI 現在可以讓任何人與其所謂的突破性語音對語音模型進行對話。免費用戶得到不超過每月 15 分鐘對話, 儘管加用戶四處走走每天一小時,每日限額會根據伺服器容量而變化。一旦時間到了,你就必須切換到速度慢得多且乏味的標準語音模式。
但在你開始閒聊之前,先調整你的期望。因為您會發現演示期間展示的許多功能目前對免費用戶和 Plus 用戶不可用。高級語音模式是不是多式聯運目前尚不具備分析聲音、影像或影片的能力。因此它無法閱讀您的平裝本,也無法判斷您舉起的是哪根手指。我無法讓它唱歌或告訴我正在演奏哪種樂器(吉他)。因此,有幾個承諾的功能尚未實現。
高級語音模式的正確之處
即使沒有承諾的功能,ChatGPT 的高級模式也有一些正確的功能。雖然不是很多,但為了公平起見還是值得一提的。
聲音不錯,但沒有天空
有九種聲音供您選擇:
- Sol (F) – 精明且輕鬆
- Ember (M) – 自信與樂觀
- Arbor (M) – 隨和且多才多藝
- Vale (F) – 聰明又好奇
- 楓 (F) – 開朗、坦誠
- 杜松 (F) – 開放、樂觀
- Cove (M) – 沉著而直接
- 雲杉 (M) – 冷靜與肯定
- Breeze (男/女) – 活潑而認真
我錯過了什麼嗎?哦,是的,沒有天空。但其餘的聲音絕不是降級的聲音。它們多種多樣,而且聽起來很有趣。但就那個失蹤的聲音而言,可以肯定的是。那麼讓我們繼續吧。
善於表達、會說多種語言的健談者
無論對高級語音模式有什麼抱怨,有一點你不能否認——它令人印象深刻。與標準模式相比,延遲非常低,有利於自然對話。它可以理解並使用 50 多種語言進行溝通。事實上,您可以將其用作語音訓練器、翻譯器或語言老師。
它不會做聲音印象,但如果你問的話,它會告訴你一些口音——從美國南部到英國倫敦到孟加拉語以及介於兩者之間的一切。
相比,聲音互動好多了,不會讓人覺得很匆忙。所以實際上感覺就像 ChatGPT 高級語音模式一樣為了你。
ChatGPT 能理解你的情緒嗎?
呃……可以說。儘管 OpenAI 聲稱 ChatGPT 可以識別說話者的語氣和情緒,但一些用戶對此表示懷疑。雖然有一些用戶認為 ChatGPT 可以,但一些用戶認為它只能根據單字選擇和上下文線索推斷語氣。
一使用者假設不是“將來自用戶的音頻直接輸入到 GPT-4o”,而是先將用戶音頻轉換為文本,然後將文本發送到 GPT-4o 以產生音頻。這就是為什麼它無法聽到你聲音中的語氣或情緒,也無法捕捉到你的呼吸,因為這些東西無法用文字編碼。
事實上,高級語音模式也可以與 GPT-4(它具有文字轉語音,而不是語音到語音)一起使用,這一事實使我們相信 ChatGPT 實際上無法理解語氣。
另一方面,也有人說確實如此。因此,陪審團仍在爭論中。
現在,讓我們開始討論實際問題。因為無論演示多麼鼓舞人心,重要的是你我自己實際上可以用它做什麼。不幸的是,數量並不多。原因如下。
嚴格審查和限制
所有人工智慧聊天機器人都傾向於過於謹慎,甚至可能有點過頭了。這是可以理解的——公司不希望他們的聊天機器人形成意見或發表可能會給他們帶來負面影響的事情。但謹慎和審查之間只有一線之隔,ChatGPT 的高級語音模式堅定地站在後者一邊。
談論任何明確的或有爭議的事情都是禁止的,但這很好。但由於規則過於嚴格,高級語音模式有時會拒絕談論最無害的請求。那些正在查看免費試用版的人可能沒有足夠的機會遇到此類問題。但 Plus 用戶的對話時間多一點,肯定會時不時地偶然發現它。
知道 ChatGPT 可能會拒絕您的請求並讓您陷入困境,這既麻煩又令人失望。
中斷閾值很低
大多數用戶都同意的一件事是它的中斷閾值非常低。最輕微的停頓都會觸發 ChatGPT 認為現在「輪到」說話了。如果您暫停超過一秒,ChatGPT 將開始說話。這可能會產生問題,尤其是因為我們在說話之前都需要一些時間思考,即使時間很短。
必須重新介入才能一遍又一遍地問完問題,這可能會打亂你的思路,讓你無法進行除了表面層面的對話之外的任何事情。如果有一個保持通話按鈕,這個問題就可以輕鬆解決。
不幸的是,標準語音模式中存在的保持講話按鈕在高級語音模式中缺失。只有一個靜音和一個結束通話按鈕。因此,您的請求中不能有任何長時間的思考停頓,否則 ChatGPT 會在它認為您的請求結束時介入。
與主題限制等其他更棘手的問題相比,這個問題更容易修復。透過簡單地在 UI 中加入保持講話選項,ChatGPT 高級語音模式可以以使用者為中心十倍。
存取文字記錄很有用。但是,即使 ChatGPT 理解並正確回答,記錄中仍會缺少一些請求。
其他(奇怪和令人毛骨悚然的)問題
在與 ChatGPT 的高級語音模式交談時,確實會出現一些令人不安且常常令人費解的情況。有幾次,ChatGPT 以西班牙語開始聊天,儘管我從未用該語言進行過互動或更改過其設定。
一使用者提到ChatGPT曾經「無緣無故地尖叫,另一次聲音聽起來很機械,還有一次它使用了完全不同的聲音」。
這些可能是聲音模型中顯現的幻覺,或是更邪惡的東西。不管是什麼,都不好。
判決
即使延遲推出後,ChatGPT 高級語音模式似乎也無法用於日常互動。目前,它只是另一個花哨的人工智慧遊戲,儘管上限非常高。
儘管存在主題限制和令牌限制,ChatGPT 的高級模式在很大程度上仍是一項正在進行的工作,尚未配備 OpenAI 如此大張旗鼓地演示的功能。
OpenAI一次使用者最終可能會與聲音形成情感連結。但它可能有些超前了。從使用者介面到聊天限制,都有足夠的改進空間。
但就目前而言,進階語音模式與競爭對手並沒有太大差異。如果有什麼不同的話,那就是它在免費可用性方面表現不佳,而 Gemini Live 儘管可能存在缺陷,但任何人都可以訪問。