OpenAI发布新音频模型以支持开发者API

作者:API传播员 · 2025-12-09 · 阅读时间:4分钟

OpenAI近日通过其开发者API发布了一套全新的音频模型。这些模型包括更新的语音转文本模型(gpt-4o-transcripte和gpt-4o-mini-transcribe)以及全新的文本转语音模型(gpt-4o-mini-tts)。这些模型旨在为基于语音的应用程序提供更强大的功能支持。


背景

此次发布延续了OpenAI对基于代理系统的持续关注。此前,该公司已推出了如Operator、Deep Research、Computer-Using Agent和Responses API等产品。OpenAI认识到,仅依赖基于文本的交互界面不足以满足人机交互的需求,因此加大了对先进音频处理技术的投入。


语音转文本模型的关键改进

与之前的Whisper模型相比,新一代语音转文本模型在单词错误率(WER)上取得了显著提升。根据OpenAI的基准测试,这些模型在以下复杂场景中表现尤为出色:

  • 处理各种口音和方言
  • 应对嘈杂的环境
  • 适应不同语速的语音输入

这些改进使得模型在以下应用场景中更具优势:

  • 客户服务呼叫中心
  • 会议记录与转录系统
  • 多语言语音识别

技术进步

新模型的技术进步主要体现在以下几个方面:

  1. 专业音频数据集的广泛预训练:利用高质量音频数据集提升模型性能。
  2. 强化学习方法:通过强化学习减少转录错误,提高模型的准确性。
  3. 先进蒸馏技术:实现从大型模型到小型模型的知识迁移,确保小型模型也能提供高质量的性能。

文本转语音创新

gpt-4o-mini-tts模型引入了全新的“可指示性”功能。开发者不仅可以控制模型生成的内容,还可以指定语音的表达方式。这一功能使得语音体验更加个性化。例如,开发者可以指示模型以“富有同情心的客服人员”或“中世纪骑士”的风格进行语音输出。

OpenAI强调,这些文本转语音模型仅限于使用人工预设的声音,并通过监控确保生成的语音与预设一致。


技术架构与特性

这些音频模型基于GPT-4o和GPT-4o-mini架构,具备以下核心特性:

  1. 专门的预训练:在音频相关数据集上进行优化训练,以提升语音处理能力。
  2. 高级蒸馏技术:通过知识迁移技术,确保小型模型的高效性和高质量表现。
  3. 强化学习:特别是语音转文本模型,强化学习显著提高了准确性并减少了错误。

API可用性与集成

目前,所有新音频模型均已通过OpenAI的API向开发者开放。对于已经使用基于文本模型构建会话体验的开发者,现在可以轻松添加语音转文本和文本转语音功能。

此外,OpenAI还推出了与其代理SDK的集成,进一步简化了开发过程。对于需要低延迟的语音处理应用,OpenAI建议使用其实时API中的语音模型。


未来发展计划

OpenAI在未来的音频模型发展中规划了以下方向:

  1. 持续提升音频模型的智能性和准确性。
  2. 探索在确保安全标准的前提下,允许开发者使用自定义语音的解决方案。
  3. 与政策制定者、研究人员和创意人士保持合作,推动合成语音技术的健康发展。
  4. 加大对其他多模态技术(如视频)的投资,以实现多模态代理交互体验。

原文链接: https://learnprompting.org/blog/openai-audio-models-api