OpenAI发布新音频模型以支持开发者API

OpenAI近日通过其开发者API发布了一套全新的音频模型。这些模型包括更新的语音转文本模型（gpt-4o-transcripte和gpt-4o-mini-transcribe）以及全新的文本转语音模型（gpt-4o-mini-tts）。这些模型旨在为基于语音的应用程序提供更强大的功能支持。

背景

此次发布延续了OpenAI对基于代理系统的持续关注。此前，该公司已推出了如Operator、Deep Research、Computer-Using 音频处理技术的投入。

与之前的Whisper模型相比，新一代语音转文本模型在单词错误率（WER）上取得了显著提升。根据OpenAI的基准测试，这些模型在以下复杂场景中表现尤为出色：

这些改进使得模型在以下应用场景中更具优势：

新模型的技术进步主要体现在以下几个方面：

gpt-4o-mini-tts模型引入了全新的“可指示性”功能。开发者不仅可以控制模型生成的内容，还可以指定语音的表达方式。这一功能使得语音体验更加个性化。例如，开发者可以指示模型以“富有同情心的客服人员”或“中世纪骑士”的风格进行语音输出。

OpenAI强调，这些文本转语音模型仅限于使用人工预设的声音，并通过监控确保生成的语音与预设一致。

这些音频模型基于GPT-4o和GPT-4o-mini架构，具备以下核心特性：

目前，所有新音频模型均已通过OpenAI的文本转语音功能。

此外，OpenAI还推出了与其代理SDK的集成，进一步简化了开发过程。对于需要低延迟的语音处理应用，OpenAI建议使用其实时API中的语音模型。

OpenAI在未来的音频模型发展中规划了以下方向：

原文链接: https://learnprompting.org/blog/openai-audio-models-api