如何在 ChatGPT 中使用语音和图像提示

要知道什么

截至 2023 年 9 月 27 日，ChatGPT Plus 和 Enterprise 用户现在可以通过图像和语音提示与聊天机器人进行交互，并听到其以类人声音进行的响应。
要将图像输入到提示中，请点击消息字段左侧的相机或图库图标，然后捕获或选择图像。您还可以在图像上绘图来指定 ChatGPT 的焦点位置。
要开始使用语音模式，请从 ChatGPT 设置 > 新功能中选择语音模式。
点击右上角的耳机按钮并选择语音即可开始语音对话。
ChatGPT 允许您从五种不同的人类声音中进行选择。

自推出以来已近一年，OpenAI 不断添加功能，不仅增强 ChatGPT 的功能，还增强您的使用方式。最近的更新现在允许您向 ChatGPT 提供语音命令和图像作为提示，并以人声大声朗读您的答案，从本质上促进您和 AI 聊天机器人之间的来回对话。

以下是您需要了解的有关如何访问和使用这些新的 ChatGPT 模式以及它们如何推动人工智能更紧密地融入我们生活的所有信息。

ChatGPT 获得语音模式和视觉

ChatGPT 应用程序已经可以将录制的语音提示翻译为文本。但现在对直接语音对话的支持允许双方进行交互，而无需涉及任何一方的文本，从而使该平台更加灵活。

语音功能正如人们所期望的那样工作——你点击屏幕并开始说话。然后将单词转换为文本并发送给法学硕士。响应将转回语音，最后以您选择的声音朗读。

OpenAI 与专业演员合作，提供五种不同的声音，为答案增添真实感，同时自然地激发对话。

另一方面，图像提示，顾名思义，可以让您添加相机或图库中的图像并提出有关它们的问题。这与 Google Lens 是一脉相承的，尽管由于先进的 GPT 架构，响应更可靠。

如何通过语音命令提示 ChatGPT

语音模式开启了一种新的对话模式，但目前还不是每个人都可以使用。 OpenAI 目前专门向 ChatGPT Plus 和企业用户推出它们。它也仅在适用于 iOS 和 Android 的 ChatGPT 移动应用程序上可用，而在桌面版本上不可用。您可以从“设置”>“新功能”选择进入语音模式。

要开始使用语音模式，请点击主屏幕右上角的耳机图标，然后从五个可用选项中选择一种语音。

对话开始后，开始对着麦克风讲话。

当您停止说话时，将立即发送语音提示。

您还可以点击中间的手动发送提示。

使用暂停和停止按钮进一步控制录音。

ChatGPT 现在将以您选择的声音提供响应。要打断回答，只需在说话时点击中间即可。

回复完成后，您可以再次开始讲话并继续对话。

点击底部的 X 结束聊天。

如何用图像提示 ChatGPT

考虑到其他人工智能聊天机器人已经启动并运行了此功能，图像提示成为与语音模式一起引入平台的重要功能。它也专门供 ChatGPT Plus 和 Enterprise 用户使用。但幸运的是，它也正在推出桌面版本。

点击左下角的相机图标即可开始。

捕捉图像。

然后点击“确认”。

图像将上传到消息字段中。输入您的文本并点击发送。

ChatGPT 将扫描图像和文本提示并做出相应响应。它甚至可能会提示您提供更多视觉参考。

在图像上绘制以要求 ChatGPT 聚焦于某个对象

您还可以在图像上绘图以吸引 ChatGPT 的注意力。

除了相机之外，您还可以选择从图库或文件夹添加图像。点击“+”号可显示其他图像提示选项。

然后选择其他上传图片的方式。

选择一张图片。

您可以将多张图片添加到提示中。

通过后续图像和文本查询继续您的对话。或者切换到语音并说出您的问题以配合图像。

ChatGPT 语音和图像功能的深远优势

自然人类声音的实现——或者它们的近似再现——可以允许现实世界中的许多可能性和场景。

例如，您可以给食物拍照，让 ChatGPT 估算您的卡路里摄入量，让它以您喜欢的声音之一给您读睡前故事，开放听觉学习，或者用它来计划 DAN。尽管它不会让你像电影中那样与它建立关系（斯派克·琼斯的她我想到了），本质上的特征与它惊人地接近。

拥有类似人类声音的人工智能不仅为新的用例打开了大门，而且还允许 OpenAI 与 Spotify 等服务合作，为自己的平台开发新的基于人工智能的功能。

常问问题

让我们考虑一些有关 ChatGPT 上的新语音和图像功能的常见问题。

如何在 ChatGPT 中启用语音模式和图像提示？

要开始在 ChatGPT 中使用语音和图像模式，请点击三条水平线，然后选择“设置”>“新功能”。确保您有 ChatGPT Plus 或 Enterprise 计划并且正在使用 GPT-4。

为什么我在 ChatGPT 设置中找不到新功能？

如果您没有看到“新功能”选项，则表明您的设备尚未收到新更新。在 App Store 或 Play Store 上检查应用程序的更新。尽管该功能已经上线，但 OpenAI 表示将在未来几周内向用户推出。

语音交互和图像提示的能力让生成式人工智能的先驱们重新回到了机器人之战中。尽管 Bing AI 和 Bard 都有相似的功能，但它们尚未能够以任何互连、全面的方式实现多模态。 Bing AI 无法大声朗读其回复，巴德尚未收到独立的应用程序。由于巨头们稍显落后，ChatGPT 将寻求为自己及其用户赢得动力。

我们希望本指南有助于了解如何在 ChatGPT 上使用新的语音和图像模式。直到下次！