用于语音功能的OpenAI Realtime API替代方案

OpenAI 的 Realtime API 最近发布后，在开发者社区中引发了广泛关注。该 API 提供了一个结合大型语言模型（LLM）和语音功能的统一解决方案。然而，Cerebrium 与 Rime 合作开发了一种替代方案，不仅在多个关键方面与 OpenAI 的产品相媲美，还在性能、成本和灵活性上实现了超越。本文将深入探讨这一替代方案的优势，并展示如何通过 Daily 的 Pipecat 框架为企业和开发者提供高效且可定制的解决方案。

Cerebrium 项目设置

首先，我们需要创建一个 Cerebrium 项目。如果您尚未注册 Cerebrium 帐户，可以通过其官网完成注册并按照文档完成设置。在 IDE（集成开发环境）中运行以下命令以初始化项目：

Cerebrium init-openai-realtime-comparison

此命令将生成两个文件：

main.py：项目的入口文件，用于编写主要代码。
cerebrium.toml：包含构建和环境设置的配置文件。

Cerebrium 是整个应用程序的基础平台。在接下来的步骤中，我们将编辑上述文件并添加必要的内容。

Daily 设置

Daily 提供了强大的 API 和 SDK，便于开发者将实时视频和音频功能集成到应用程序中。通过 Daily，我们可以从直播流中提取帧数据。

如果尚未注册 Daily 帐户，可以通过其官网完成注册（提供免费套餐）。
从个人资料中获取开发者令牌，用于验证调用请求。
导航至“开发者”选项卡，获取 API 密钥，并将其添加到 Cerebrium 的密钥管理中。

接下来，我们需要创建一个 Daily 房间，供用户和系统加入以监控直播流。以下代码展示了如何在 main.py 中实现这一功能：

# 示例代码：初始化 Daily 房间和验证请求
# 请参考 Daily 文档获取更多选项

在后续部分，我们将展示如何将这些 API 端点连接到前端存储库。

OpenAI 实时 API 集成

在项目中，我们需要安装 Pipecat 框架以支持实时语音处理。以下是关键步骤：

从 GitHub 安装 Pipecat 框架。
初始化 Daily 传输层，用于处理 WebRTC 调用中的音频和转录。
配置 OpenAI 实时语言模型服务，设置以下参数：
- 转录功能：实时处理和解释语音输入。
- 静音阈值：设置为 1000 毫秒，用于检测说话者的停顿。
- AI 助手行为：定义助手的角色，使其能够在不同服务之间切换。

以下是初始化 OpenAI 实时服务的关键代码片段：

# 示例代码：配置 OpenAI 实时服务
# 包括 API 密钥、会话属性和转录参数

通过结合 Pipecat 框架，我们可以实现短语端点检测，优化语音交互的响应速度。

自定义实现：OpenAI + Rime

为了进一步优化性能和成本，我们可以结合 OpenAI 的 GPT-4 和 Rime 文本到语音模型，构建一个自定义服务。以下是关键优势：

成本节省：相比成本降低约 3 倍。
延迟优化：在 Cerebrium 的无服务器架构上托管 LLM，可将延迟减少 50%。

在 GitHub 仓库中，我们创建了一个 rime.py 文件，将 Rime 与 Pipecat 框架集成。以下是关键代码片段：

# 示例代码：初始化 OpenAI LLM 和 Rime TS 服务
# 配置自定义管道以优化端到端性能

通过调整管道配置，我们可以根据所选服务动态优化语音处理流程。

部署到 Cerebrium

完成开发后，可以通过以下命令将应用程序部署到 Cerebrium：

Cerebrium deploy

部署成功后，您将看到类似以下的输出：

部署成功示例

连接前端

为了演示完整的应用程序，我们提供了一个前端公共分支，您可以通过以下步骤进行设置：

克隆仓库并按照 README.md 中的说明操作。
在 .env.development.local 文件中填充以下变量：
- 邀请服务器 URL：https://api.cortex.cerebrium.ai/v4/p-xxxxx/<APP_NAME>
- 服务器认证令牌：从 Cerebrium 仪表板的 API 密钥部分获取 JWT 令牌。

总结

尽管 OpenAI 的 Realtime API 在 LLM 与语音功能的集成方面取得了显著进展，但 Cerebrium 与 Rime 的合作提供了一种更具优势的替代方案。通过结合 Pipecat 框架，该解决方案在性能、成本和灵活性上均优于 OpenAI 的产品。

这一设置不仅能够高效处理语音转录和转向检测，还支持动态切换服务，为用户提供量身定制的体验。此外，该方案为进一步的定制和扩展提供了广阔的空间，是企业和开发者实现实时语音处理的理想选择。

原文链接: https://www.cerebrium.ai/blog/an-alternative-to-openai-realtime-api-for-voice-capabilities