ChatGPT 打開眼睛、耳朵和嘴巴

2023-09-26

到目前為止，與 ChatGPT 的聊天僅限於文字。 OpenAI 打開其機器人的門窗，讓人們可以與人進行面對面的交談；更好的是，ChatGPT 還知道如何分析影像。

ChatGPT 想要成為的不僅僅是一個對話機器人：一個真正的虛擬助理！OpenAI 已開始對其聊天機器人進行重大更新，首先是為其提供耳朵和聲音。其中有幾個是相同的，因為該公司與專業配音演員合作了 5 個聲音：兩個女性，兩個男性，一個比較幼稚。

ChatGPT 提供語音

這些合成聲音目前全部為英語，由新模型提供支持文字轉語音。 Whisper是OpenAI開發的開源文字辨識工具，用於將使用者的單字轉錄為文字。

該公司認識到這項技術由 Spotify 經營其新的播客翻譯服務— 存在風險，例如篡奪公眾人物身分的可能性。這就是 OpenAI 限制該技術用於語音討論的原因。

另一個重要的新功能是 ChatGPT 分析影像的能力。用戶可以向機器人詢問有關照片的信息，例如冰箱內部的信息，以便機器人建議食譜。它還可以分析圖表、表格或螢幕截圖。例如，ChatGPT 可以辨識工具箱中的內六角扳手：

此影像辨識同時依賴GPT-3.5和GPT-4，已被發達在 Be My Eyes 的幫助下，這是一款為盲人提供的應用程序，可讓他們從照片中獲取資訊。這裡也已採取安全措施。就影像而言，OpenAI 限制了機器人分析個體的能力。這將為 ChatGPT 在圖像方面添加一個新的字串，因為該機器人也將歡迎 Dall-E 3。