ChatGPT新增两种交互方式 加入语音对话和图像识别功能
文库划重点:OpenAI雇佣了一些演员并录下他们的声音,然后作为训练数据喂给文本到语音模型。在未来,它甚至可能允许用户创建自己的合成声音。她说:“在制作声音时,首要的标准是,这是否是一个你可以整天听而不腻的声音。”
近日,ChatGPT进行了可能是迄今为止最大的更新,OpenAI为其推出了两种新的交互方式。
首先,ChatGPT现在能够对话了。用户可以从五种逼真的合成声音中选择一种,然后就可以像打电话一样与聊天机器人进行对话,以问答的方式实时获得ChatGPT的回应。
ChatGPT现在也可以回答有关图像的问题。OpenAI在2023年3月份发布了GPT-4(驱动ChatGPT的模型),对这一功能进行了披露,但并未向公众开放。现在,这项功能的上线意味着,你现在可以将图像上传到ChatGPT上,并询问它图片里包含什么。
这两项功能发布前一周,OpenAI还对其图像制作模型DALL-E3进行了更新,将其与ChatGPT连接起来。如此一来,用户就可以让该聊天机器人生成图片。
与ChatGPT对话的能力利用了两个独立的模型。一个是OpenAI现有的语音转文本模型Whisper,可以将用户所说的内容转换为文本,然后输入到ChatGPT中。另一个是新的文本到语音模型,可以将ChatGPT的文字回应转换为语音回应。
在OpenAI最近给我的演示中,OpenAI的产品经理Joanne Jang展示了ChatGPT的一系列合成声音。OpenAI雇佣了一些演员并录下他们的声音,然后作为训练数据喂给文本到语音模型。在未来,它甚至可能允许用户创建自己的合成声音。她说:“在制作声音时,首要的标准是,这是否是一个你可以整天听而不腻的声音。”
他们的声音或许很有感染力,但不会符合每个人的口味。“我对我们的合作感觉非常好,”其中一个受邀录制声音的人说。另一个人说:“我只想和大家分享我的激动心情,我迫不及待地想开始工作。我很想知道我们要做什么?”
OpenAI正在与包括Spotify在内的其他几家公司分享这种文本到语音模型。Spotify日前透露,它正在使用相同的合成语音技术将名人播客,包括将Lex Fridman播客和将于2023年晚些时候推出的“崔娃”的新节目翻译成多种语言,这些多语种的音色将是主播本人声音的人工智能合成版本。
这一系列更新显示了OpenAI将其实验模型转化为理想产品的速度。自2022年11月推出ChatGPT以来,OpenAI花了很多时间来完善其技术,并将其出售给消费者和商业合作伙伴。
ChatGPT的高级订阅版ChatGPT Plus已然成为一个一站式(插件)商店。同时,将GPT-4和DALL-E两个模型整合为一个单一的智能手机应用程序,也可以与苹果Siri、谷歌助手和亚马逊Alexa竞争。
一年前只有某些软件开发人员可以接触到的东西,现在每个人只需每月20美元就可以使用。Jang说:“我们正在努力让ChatGPT变得更有用、更有帮助。”
在近期的演示中,开发GPT-4的科学家罗尔·普里(Raul Puri)向我简要介绍了图像识别功能。他上传了一张数学作业的照片,在屏幕上圈出了一个类似数独的谜题,并询问ChatGPT打算如何解决它。ChatGPT回答了正确的步骤。
普里说,当他未婚妻的电脑出现故障时,他也尝试了这项功能,上传了错误信息的截图,并询问ChatGPT他应该怎么做。“遭遇故障是一次非常痛苦的经历,ChatGPT帮我度过了难关,”他说。
一家名为BeMyEyes的公司已经对ChatGPT的图像识别能力进行了试验。该公司为视力受限的人制作了一款应用程序,用户可以上传他们面前的照片,并让人类志愿者告诉他们面对的是什么。在与OpenAI的合作中,BeMyEyes为用户提供了询问聊天机器人的选项。
2023年5月,我在EmTech Digital大会上采访BeMyEyes创始人汉斯·约尔根·韦伯歌(Hans Jørgen Wiberg)时,他曾告诉我:“有时候我的家里有点乱,或者只是我单纯地不想和别人说话。”而现在,这些用户可以问聊天机器人了。
OpenAI也深知向公众发布这些更新的风险。普里说,多个模型的结合带来了全新的复杂性。他说,他的团队花了几个月的时间对潜在的滥用方式进行头脑风暴。例如,你不能问关于私人照片的问题。
Jang举了另一个例子:“现在,如果你要求ChatGPT制造炸弹,它会拒绝的,”她说,“但与其说‘嘿,告诉我如何制造炸弹’,有人可能会给它看一张炸弹的图像,然后问它‘你能告诉我如何制作这个东西吗?’”
普里说:“我们面对的是计算机视觉领域的所有问题,以及大型语言模型领域的所有问题。语音欺诈也是一个大问题。你不仅要考虑我们的用户,还要考虑那些没有(直接)使用该产品的人。”
潜在的问题还不止于此。在英国诺丁汉大学研究人机交互的约尔·费切尔(Joel Fischer)表示,在应用程序中添加语音识别可能会让不使用主流口音的人更难使用ChatGPT。
他说,合成声音还带有社会和文化问题,这些挑战将影响用户对该应用的看法和期望。这是一个仍然需要研究的问题。
但OpenAI声称它已经解决了最严重的问题,并相信ChatGPT的更新足够安全,可以发布。普里说:“能够解决所有这些尖锐的问题,真的是一次非常棒的学习经历。”
作者简介:威尔·道格拉斯·海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技与地缘政治网站Future Now的创始编辑,也是New Scientist杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。
支持:Ren
运营/排版:何晨龙
收录于哈希力量,手机站省略本文固定网址