Whisper API | 将音频和视频转换为文本转录 - Apidog

不断扩展的语音识别（ASR）领域的一个典型代表。这项基于云的服务能够将音频或视频文件无缝转换为文本，即使在背景噪音较大或有多个扬声器的复杂环境中，也能保持高精度的转录效果。

什么是 Whisper API？

Whisper API 是 OpenAI 提供的一种基于云的自动语音识别（ASR）服务。它利用先进的机器学习技术，将音频或视频文件转换为文本格式，为用户提供高效、精准的语音转录解决方案。

Whisper API 的主要功能

自动语音识别（ASR）

Whisper API 的核心功能是将音频或视频文件中的语音内容转录为文本格式。即使面对背景噪音、不同口音或包含技术术语的复杂音频，它仍能保持高精度的转录效果。

多语言支持

Whisper API 支持多种语言，不仅限于英语。这使其成为全球用户的理想选择。用户可以使用母语进行转录，或者将语音翻译为英语，从而提升内容的可访问性。

转录模式

Whisper API 提供两种主要模式：

转录模式：以原始语言提供语音内容的文本转录。
翻译模式：将语音内容翻译为英语文本。

这种灵活性能够满足不同场景的需求。

可扩展性和效率

Whisper API 基于云的架构，能够高效处理大规模的音频或视频文件。这对于需要处理大量语音数据的企业（如呼叫中心或媒体公司）来说尤为重要。

可选日记功能（说话者识别）

对于包含多个扬声器的录音，Whisper 提供了可选的日记功能，可以将每位说话者的语音分离成独立的文本记录，便于识别和分析。

易于集成

Whisper API 采用 RESTful 接口，开发者可以轻松将其集成到现有项目中，快速实现语音转文本功能。

安全和隐私

OpenAI 高度重视用户隐私和数据安全。开发者可以安全地访问 API，同时确保上传的音频或视频文件得到妥善处理。

总的来说，Whisper API 提供了一套全面的功能，包括高精度转录、开发者和企业充分挖掘语音数据的潜力并优化工作流程。

Whisper API 定价

Whisper API 的使用是付费的，费用为每分钟 0.006 美元。虽然它不是免费的，但其高效和精准的表现使其性价比极高。

使用 Apidog 集成 Whisper API 的分步指南

以下是通过 Apidog 使用 Whisper API 将语音转换为文本的简单操作指南。在开始之前，请确保您已获取 OpenAI API 密钥，这是使用 Whisper API 的必要条件。

步骤 1 – 确定使用的端点

Whisper API 提供多种功能，包括从文本生成语音、将语音转换为文本以及将音频翻译为英语。在本指南中，我们将重点介绍如何将音频文件转换为文本。

步骤 2 – 在 Apidog 上设置 API 请求

打开 Apidog，点击“+”按钮，然后选择“导入 cURL”。

复制 OpenAI 提供的 cURL 代码并粘贴到导入窗口中：

curl https://api.openai.com/v1/audio/translations 
-H "Authorization: Bearer $OPENAI_API_KEY" 
-H "Content-Type: multipart/form-data" 
-F file="@/path/to/file/german.m4a" 
-F model="whisper-1"

导入后，将请求方法从 GET 修改为 POST，并根据实际文件路径调整 file 参数。
在“授权”部分，将 $OPENAI_API_KEY 替换为您的 OpenAI API 密钥。
完成设置后，点击“发送”。如果操作正确，您将收到以下响应：
```
{
 "text": "你好，我叫 Wolfgang，来自德国。你今天要去哪里？"
}
```

通过 Apidog，您还可以免费试用 OpenAI 的部分 API 功能，无需额外付费即可体验其强大的功能。

结论

OpenAI 的 Whisper API 在自动语音识别领域树立了新的标杆。即使在复杂的音频环境中，它也能以极高的准确性提供高质量的转录服务，为多种应用场景提供支持。从转录会议和讲座到提升多媒体内容的可访问性，Whisper API 的应用潜力巨大。

随着技术的不断发展和更广泛的应用，我们可以期待 Whisper API 在未来催生更多创新的用例，进一步巩固其在语音数据处理领域的领先地位。

原文链接: https://apidog.com/blog/whisper-api/