ChatGPT新增两种交互方式加入语音对话和图像识别功能

W.Douglas Heave ☉ 文来源：DeepTech深科技
2023-09-28 @ 哈希力量选录

人工摘要：OpenAI雇佣了一些演员并录下他们的声音，然后作为训练数据喂给文本到语音模型。在未来，它甚至可能允许用户创建自己的合成声音。她说：“在制作声音时，首要的标准是，这是否是一个你可以整天听而不腻的声音。”

近日，ChatGPT进行了可能是迄今为止最大的更新，OpenAI为其推出了两种新的交互方式。

首先，ChatGPT现在能够对话了。用户可以从五种逼真的合成声音中选择一种，然后就可以像打电话一样与聊天机器人进行对话，以问答的方式实时获得ChatGPT的回应。

ChatGPT现在也可以回答有关图像的问题。OpenAI在2023年3月份发布了GPT-4（驱动ChatGPT的模型），对这一功能进行了披露，但并未向公众开放。现在，这项功能的上线意味着，你现在可以将图像上传到ChatGPT上，并询问它图片里包含什么。

这两项功能发布前一周，OpenAI还对其图像制作模型DALL-E3进行了更新，将其与ChatGPT连接起来。如此一来，用户就可以让该聊天机器人生成图片。

与ChatGPT对话的能力利用了两个独立的模型。一个是OpenAI现有的语音转文本模型Whisper，可以将用户所说的内容转换为文本，然后输入到ChatGPT中。另一个是新的文本到语音模型，可以将ChatGPT的文字回应转换为语音回应。

在OpenAI最近给我的演示中，OpenAI的产品经理Joanne Jang展示了ChatGPT的一系列合成声音。OpenAI雇佣了一些演员并录下他们的声音，然后作为训练数据喂给文本到语音模型。在未来，它甚至可能允许用户创建自己的合成声音。她说：“在制作声音时，首要的标准是，这是否是一个你可以整天听而不腻的声音。”

他们的声音或许很有感染力，但不会符合每个人的口味。“我对我们的合作感觉非常好，”其中一个受邀录制声音的人说。另一个人说：“我只想和大家分享我的激动心情，我迫不及待地想开始工作。我很想知道我们要做什么？”

OpenAI正在与包括Spotify在内的其他几家公司分享这种文本到语音模型。Spotify日前透露，它正在使用相同的合成语音技术将名人播客，包括将Lex Fridman播客和将于2023年晚些时候推出的“崔娃”的新节目翻译成多种语言，这些多语种的音色将是主播本人声音的人工智能合成版本。

这一系列更新显示了OpenAI将其实验模型转化为理想产品的速度。自2022年11月推出ChatGPT以来，OpenAI花了很多时间来完善其技术，并将其出售给消费者和商业合作伙伴。

ChatGPT的高级订阅版ChatGPT Plus已然成为一个一站式（插件）商店。同时，将GPT-4和DALL-E两个模型整合为一个单一的智能手机应用程序，也可以与苹果Siri、谷歌助手和亚马逊Alexa竞争。

一年前只有某些软件开发人员可以接触到的东西，现在每个人只需每月20美元就可以使用。Jang说：“我们正在努力让ChatGPT变得更有用、更有帮助。”

在近期的演示中，开发GPT-4的科学家罗尔·普里（Raul Puri）向我简要介绍了图像识别功能。他上传了一张数学作业的照片，在屏幕上圈出了一个类似数独的谜题，并询问ChatGPT打算如何解决它。ChatGPT回答了正确的步骤。

普里说，当他未婚妻的电脑出现故障时，他也尝试了这项功能，上传了错误信息的截图，并询问ChatGPT他应该怎么做。“遭遇故障是一次非常痛苦的经历，ChatGPT帮我度过了难关，”他说。

一家名为BeMyEyes的公司已经对ChatGPT的图像识别能力进行了试验。该公司为视力受限的人制作了一款应用程序，用户可以上传他们面前的照片，并让人类志愿者告诉他们面对的是什么。在与OpenAI的合作中，BeMyEyes为用户提供了询问聊天机器人的选项。

2023年5月，我在EmTech Digital大会上采访BeMyEyes创始人汉斯·约尔根·韦伯歌（Hans Jørgen Wiberg）时，他曾告诉我：“有时候我的家里有点乱，或者只是我单纯地不想和别人说话。”而现在，这些用户可以问聊天机器人了。

OpenAI也深知向公众发布这些更新的风险。普里说，多个模型的结合带来了全新的复杂性。他说，他的团队花了几个月的时间对潜在的滥用方式进行头脑风暴。例如，你不能问关于私人照片的问题。

Jang举了另一个例子：“现在，如果你要求ChatGPT制造炸弹，它会拒绝的，”她说，“但与其说‘嘿，告诉我如何制造炸弹’，有人可能会给它看一张炸弹的图像，然后问它‘你能告诉我如何制作这个东西吗？’”

普里说：“我们面对的是计算机视觉领域的所有问题，以及大型语言模型领域的所有问题。语音欺诈也是一个大问题。你不仅要考虑我们的用户，还要考虑那些没有（直接）使用该产品的人。”

潜在的问题还不止于此。在英国诺丁汉大学研究人机交互的约尔·费切尔（Joel Fischer）表示，在应用程序中添加语音识别可能会让不使用主流口音的人更难使用ChatGPT。

他说，合成声音还带有社会和文化问题，这些挑战将影响用户对该应用的看法和期望。这是一个仍然需要研究的问题。

但OpenAI声称它已经解决了最严重的问题，并相信ChatGPT的更新足够安全，可以发布。普里说：“能够解决所有这些尖锐的问题，真的是一次非常棒的学习经历。”

作者简介：威尔·道格拉斯·海文（Will Douglas Heaven）是《麻省理工科技评论》人工智能栏目的高级编辑，他在这里报道新的研究、新兴趋势及其背后的人。此前，他是英国广播公司（BBC）科技与地缘政治网站Future Now的创始编辑，也是New Scientist杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位，深谙与机器人合作的体验。

支持：Ren

运营/排版：何晨龙

哈希力量文库选录，手机端省略本文网址

.长文建议换电脑刷.

【投融资简报库】

OpenAI收购科技脱口秀TBPN

橡鹿机器人完成3亿融资

OpenAI完成1220亿美元融资

ChatGPT新增两种交互方式 加入语音对话和图像识别功能

ChatGPT新增两种交互方式加入语音对话和图像识别功能