突发,GPT-4 多模态模式正式发布能看听说了 ChatGPT可语音会话了

Open AI 将会在最近开始在 ChatGPT 中推出新的语音和图像功能。它们提供了一种新的、更直观的界面,允许你进行语音对话或向 ChatGPT 展示您正在谈论的内容。

语音和图像为你提供更多在生活中使用 ChatGPT 的方式。在旅行时拍摄地标的照片,并实时讨论其中的有趣之处。当你回到家时,拍下冰箱和食品储藏室的照片,以了解晚餐吃什么(并询问后续问题以获取逐步食谱)。晚餐后,通过拍照、圈出问题集并让它与你们俩分享提示来帮助你的孩子解决数学问题。

Open AI将在接下来的两周内向 Plus 和 Enterprise 用户推出 ChatGPT 中的语音和图像。语音将在 iOS 和 Android 上提供(在您的设置中选择加入),并且图像将在所有平台上提供。

与 ChatGPT 交谈并让它回复

你现在可以使用语音与助手进行来回对话。随时随地与它交谈,为你的家人请求睡前故事,或解决餐桌上的争论。

要开始使用语音,请前往移动应用程序上的“设置”→“新功能”,然后选择加入语音对话。然后,点击主屏幕右上角的耳机按钮,从五种不同的声音中选择你喜欢的声音。

 

新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的样本语音中生成类似人类的音频。Open AI与专业配音演员合作创作了每一个声音。Open AI还使用我们的开源语音识别系统 Whisper 将你的口语转录为文本。

谈论图像

首先,点击照片按钮来拍摄或选择图像。如果您使用的是 iOS 或 Android,请先点击加号按钮。您还可以讨论多个图像或使用我们的绘图工具来指导您的助手。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

正在逐步部署图像和语音能力

OpenAI 的目标是构建安全且有益的 AGI。我们相信逐步提供我们的工具,这使我们能够随着时间的推移进行改进和完善风险缓解措施,同时也让每个人为未来更强大的系统做好准备。对于涉及语音和视觉的高级模型,这一策略变得更加重要。

声音

新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成语音,为许多创造性和以可访问性为重点的应用程序打开了大门。然而,这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物或实施欺诈。

 

这就是我们使用这项技术来支持特定用例(语音聊天)的原因。语音聊天是与我们直接合作的配音演员创建的。我们也以类似的方式与其他人合作。例如,Spotify 正在利用这项技术的力量来试点其语音翻译功能,该功能可以通过播客自己的声音将播客翻译成其他语言,从而帮助播客扩大讲故事的范围。

图像输入

基于视觉的模型也提出了新的挑战,从对人的幻觉到依赖模型对高风险领域图像的解释。在更广泛的部署之前,我们与红队成员一起测试了该模型在极端主义和科学能力等领域的风险,以及一组不同的阿尔法测试人员。我们的研究使我们能够调整一些关键细节,以实现负责任的使用。

让视觉既有用又安全

与其他 ChatGPT 功能一样,Vision 旨在为您的日常生活提供帮助。当它能看到你所看到的东西时,它会做得最好。

这种方法是通过我们与 Be My Eyes 的合作直接获得的,Be My Eyes 是一款为盲人和弱视人士提供的免费移动应用程序,旨在了解用途和限制。用户告诉我们,他们发现就背景中恰好包含人物的图像进行一般性对话很有价值,例如当您试图弄清楚遥控器设置时有人出现在电视上

我们还采取了技术措施来显着限制 ChatGPT 分析和直接发表有关人员的陈述的能力,因为 ChatGPT 并不总是准确的,并且这些系统应该尊重个人的隐私。

现实世界的使用和反馈将帮助我们更好地完善这些保障措施,同时保持该工具的有用性。

将扩大访问范围

Plus 和 Enterprise 用户将在接下来的两周内体验语音和图像。很高兴很快就能向包括开发人员在内的其他用户群体推出这些功能。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
搜索