所有文章 > 当前标签:语音转文本
OpenAI发布新音频模型以支持开发者API
OpenAI发布新音频模型以支持开发者API
2025/12/09
OpenAI通过开发者API发布新音频模型,包括语音转文本模型gpt-4o-transcripte和gpt-4o-mini-transcribe,以及文本转语音模型gpt-4o-mini-tts,支持语音应用程序开发。这些模型在单词错误率上显著提升,适用于客户服务、会议记录等场景,并引入可指示性功能实现个性化语音输出。
使用OpenAI Realtime API构建AI电话代理(第1部分)
使用OpenAI Realtime API构建AI电话代理(第1部分)
【AI驱动】 本文详细解析了使用OpenAI Realtime API构建AI电话代理的核心技术,包括语音转文本(STT)、文本推理(TTT)和文本转语音(TTS)模型的独立功能与协同工作流程,实现实时语音交互。长尾关键词:AI电话代理构建技术、实时语音交互模型。
2025/12/09
Deepgram API:通往强大语音识别技术的门户 …
Deepgram API:通往强大语音识别技术的门户 …
【AI驱动】 Deepgram API 是一款基于深度学习的语音识别服务,支持实时和预录音频转录,具有低延迟、多语言集成和可定制工作流等功能。它广泛应用于客户支持、媒体制作和教育领域,提供元数据提取和自定义模型等高级特性,帮助开发者高效实现语音转文本应用。
2025/11/27
使用 Whisper API 通过设备麦克风把语音转录为文本
使用 Whisper API 通过设备麦克风把语音转录为文本
【API解决方案】 OpenAI 的 Audio Whisper API 是一款强大的自动语音识别工具,能够将音频文件转录为多种语言的文本。它基于 Transformer 架构,经过 68 万小时的多语言数据训练,支持 98 种语言的转录和翻译。该 API 具有高鲁棒性,能够适应不同口音、背景噪音和音频质量。此外,它还支持添加提示(prompt),以提高特定内容的识别准确性。Whisper API 的输出格式丰富,包括 json、text、srt 等,可广泛应用于实时字幕生成、语音助理、多语言翻译及数据挖掘等领域。
2025/11/27
搜索、试用、集成国内外API!
幂简集成API平台已有 3388种API!
API大全
搜索文章
文章精选
na
使用 Whisper API 通过设备麦克风把语音转录为文本