DIGIPUNK
去投稿
发表于:2024年08月01日

OpenAI推出GPT-4o语音模式:更快对话体验即将全面开放

数智朋克
发布者:数智朋克
阅读::1 分钟
我要投稿
要点速达👈
  • 🆕 OpenAI推出GPT-4o语音模式,面向部分ChatGPT Plus用户。
  • ⏱️ GPT-4o为多模态模型,显著降低对话延迟。
  • 🎤 GPT-4o可感知用户声音中的情绪语调。
  • 🗣️ 语音模式支持四种预设声音,由专业配音演员制作。
  • 💼 OpenAI收购Rockset,扩展AI应用场景。

数智朋克消息,美国人工智能研究公司OpenAI于7月30日宣布,开始向部分ChatGPT Plus用户推出GPT-4o的语音模式。与之前的语音模式不同,GPT-4o为多模态模型,能够在没有其他模型辅助的情况下处理将语音转换为文本、生成响应文本并将其转化为语音的任务,显著降低了对话的延迟。

OpenAI还透露,GPT-4o能够感知用户声音中的情绪语调,包括悲伤、兴奋或唱歌。目前,Alpha组用户将收到在ChatGPT中使用该功能的提醒和相关邮件说明。OpenAI计划在今年秋季向所有ChatGPT Plus用户开放语音模式。

数智朋克了解到,GPT-4o语音模式支持四种预设声音:Juniper、Breeze、Cove和Ember,这些声音由付费配音演员制作。此前,一款名为Sky的女性配音因与好莱坞明星斯嘉丽·约翰逊相似而被暂停使用。

为避免法律纠纷,OpenAI引入了新过滤器,确保软件能发现并拒绝生成受版权保护的音乐或其他音频的请求。今年6月,OpenAI收购初创公司Rockset,纳入其人才和技术,以利用其顶尖实时分析功能和关键技术“向量搜索”,进一步扩展AI应用场景。

本文链接: https://www.shuzhipunk.com/articles/k48PZCV3Rra
转载请注明文章出处

文章所属标签
OpenAI
GPT-4o
ChatGPT Plus