AssemblyAI 流媒体语音到文本

专用API

服务商： AssemblyAI

【更新时间: 2024.07.12】将实时音频流同步转换为文本，准确率接近90%，延迟600毫秒。同步转录对话、会议和现场活动，即时提升现场互动。

0元起（支持套餐）去服务商官网采购>

浏览次数

采购人数

试用次数

SLA: N/A

响应: N/A

适用于个人&企业

试用

书签名称

确定

相似API

Text to Speech

178

使用该API可以将任何文字转语音，文字到语音使机器和应用程序能够说话。文本转语音支持多种语言，文本到语音实现语音生成。

Amazon 语音转文本-Transcribe

143

Amazon Transcribe 使用一种称为自动语音识别 (ASR) 的深度学习过程，快速准确地将语音转换为文本。

API详情
定价
使用指南
常见 FAQ
关于我们
相关推荐

产品介绍

什么是AssemblyAI 流媒体语音到文本?

将实时音频流同步转换为文本，准确率接近 90%，延迟小于 600 毫秒。

AssemblyAI 流媒体语音到文本有哪些核心功能？

1. 自动将现场音频转换为文本：同步转录对话、会议和现场活动，并立即提升现场互动。
2. 流式转录：以高精度、低延迟转录现场音频。
3. 自动标点和大小写：自动为转录文本添加专有名词的大小写和标点符号。
4. 自定义词汇：提高针对您的特定用例或产品所特有或定制的词汇的准确性。
5. ITN/格式化：自动将口头形式的文本转换为正确的书面格式，以提高文字记录的可读性。
6. 话语结束检测：自定义话语结束检测，以便更准确地检测一个说话者在流式语音转文本中何时结束话语。

AssemblyAI 实时游乐场的插图。顶部有一个按钮，上面写着“开始说话”的文字。下面有一个时间戳和输出，上面写着“你好，今天是”的文字

AssemblyAI 流媒体语音到文本的核心优势是什么？


低延迟自动转录现场音频，几乎瞬间，与定制的端点控制。	行业领先的品质获得高度准确的结果。	高并发轻松处理大容量音频文件。

自动添加大小写和标点符号的专有名词的转录文本。	每月更新和改进在我们的更新日志中查看每周的产品和准确性改进。	企业级安全性 AssemblyAI致力于最高标准的安全实践，以确保您和您客户的数据安全。

在哪些场景会用到AssemblyAI 流媒体语音到文本？

1. 语音转文本

在市场上最准确的语音转文本模型的基础上构建，准确率达 92.5% 以上。

2. 语音理解

利用音频智能从语音数据中提取最大价值，并利用 LeMUR 发挥大型语言模型的作用。

产品价格

适用范围：

个人&企业

免费方式：

每月限免

定价方式：

按量（例如每次/元、每token/美元）, 支持定制

价格：

0元起

价格详情：

使用指南

步骤1：安装SDK

通过pip安装软件包：

步骤2：配置SDK

在这一步中，您将创建一个SDK客户端，并将其配置为使用您的API密钥。

浏览到“您的API密钥”下的文本，然后单击该文本以复制它。
使用您的API密钥创建新客户端。将YOUR_API_KEY替换为复制的API密钥。

步骤3：提交音频进行转录

在此步骤中，您将提交音频文件进行转录，并等待转录完成。处理音频文件所需的时间取决于其持续时间和启用的模型。大多数的传输在45秒内完成。

指定要转录的音频的URL。URL需要可以从AssemblyAI的服务器访问。有关支持的格式列表，请参阅常见问题解答。

不支持YouTube URL。如果你想转录YouTube视频，你需要先下载音频。
要生成转录本，请将音频URL传递到transcribe()。

这可能需要一分钟，而我们正在处理音频。

选择语音模型

您可以选择要使用的模型类别，以实现最适合您的应用程序的成本-性能权衡。请参见选择语音模型。
如果转录失败，转录的status将被设置为error。要查看失败的原因，您可以打印error的值。
打印完整的成绩单。
运行应用程序并等待它完成。

您已成功转录第一个音频文件。中可以查看所有已提交的转录作业。

步骤4：启用其他AI模型

通过使用转录选项启用我们的任何AI模型，您可以从音频中提取更多见解。在这一步中，您将启用Speaker diarization模型来检测谁说了什么。

创建一个TranscriptionConfig，将speaker_labels设置为True，然后将其作为第二个参数传递给transcribe()。
除了完整的文字记录外，您现在还可以访问每个发言者的发言。

转录对象中的许多属性只有在启用相应的模型后才可用。有关详细信息，请参阅语音转文本和音频智能下的模型。

产品问答

流式语音转文本的延迟是多少？

延迟小于600毫秒。

AssemblyAI的流式语音转文本服务有哪些特点？

特点包括低延迟、行业领先的品质、高并发、自动添加高级标点符号和大小写、自定义词汇、ITN/格式化、话语结束检测等。

如何为转录文本自动添加专有名词的大小写和标点符号？

AssemblyAI的流式语音转文本服务会自动为转录文本添加专有名词的大小写和标点符号。

关于我们

AssemblyAI

企业

AssemblyAI是一家领先的人工智能公司，专注于开发先进的语音人工智能模型。公司提供包括准确语音转文字、说话人识别、情感分析、章节检测、个人信息编辑等功能的API服务。其最新推出的Universal-1模型，经过12.5百万小时多语言音频数据训练，代表了公司在语音识别技术上的最新突破。AssemblyAI致力于帮助客户通过语音数据构建创新的AI产品，并通过持续的模型更新，确保客户始终能够使用到最前沿的AI技术。

联系信息

服务时间： 0:00 - 24:00

网页在线客服：咨询

合作客户

最可能同场景使用的其他API

图片翻译-百度专用API

【更新时间：2024.07.12】图片文字识别+翻译：集成图片文字识别与文本翻译，支持语种自动检测实景回填：支持实景回填，返回图片结果

开发者工具 > 图像工具

142

实时语音翻译-有道专用API

【更新时间：2024.07.12】实时语音翻译服务是一款基于先进深度学习技术的翻译工具，能够即时将语音内容转换成多种语言。该服务支持多语言的语音识别与翻译，广泛应用于会议、在线学习和国际交流等场景，为用户提供流畅的跨语言沟通体验。

生活服务 > 语言翻译

143

身份管理服务通用API

【更新时间：2024.07.12】身份管理服务API为企业提供了可靠的身份验证和访问控制解决方案。通过统一管理内外部用户身份，实现单点登录、多因素认证等功能，确保数据和资源的安全访问。

安全服务 > 身份管理

390

DOTA2数据通用API

【更新时间：2024.07.12】提供全球范围内各种规模 DOTA2 赛事的实时数据需求。涵盖了从基础的赛事结构、参赛实体到深入的比赛实况与统计数据等多个维度，为媒体平台、数据分析网站、移动应用及电竞相关产品提供了丰富的数据支撑。

运动健康 > 赛事

217

Azure 机器学习专用API 免费

【更新时间：2024.07.12】Azure 机器学习服务，可实现在选定的平台上进行 R 和 Python 模型的开发以及运行。它提供强大的功能支持，让用户能便捷、高效地开展相关工作，无论是模型创建还是后续的运行操作，都能轻松完成。

AI技术 > AI+

218

产品价格

适用范围：

个人&企业

免费方式：

每月限免

定价方式：

按量（例如每次/元、每token/美元）, 支持定制

价格：

0元起

价格详情：

使用指南

步骤1：安装SDK

通过pip安装软件包：

步骤2：配置SDK

在这一步中，您将创建一个SDK客户端，并将其配置为使用您的API密钥。

浏览到“您的API密钥”下的文本，然后单击该文本以复制它。
使用您的API密钥创建新客户端。将YOUR_API_KEY替换为复制的API密钥。

步骤3：提交音频进行转录

在此步骤中，您将提交音频文件进行转录，并等待转录完成。处理音频文件所需的时间取决于其持续时间和启用的模型。大多数的传输在45秒内完成。

指定要转录的音频的URL。URL需要可以从AssemblyAI的服务器访问。有关支持的格式列表，请参阅常见问题解答。

不支持YouTube URL。如果你想转录YouTube视频，你需要先下载音频。
要生成转录本，请将音频URL传递到transcribe()。

这可能需要一分钟，而我们正在处理音频。

选择语音模型

您可以选择要使用的模型类别，以实现最适合您的应用程序的成本-性能权衡。请参见选择语音模型。
如果转录失败，转录的status将被设置为error。要查看失败的原因，您可以打印error的值。
打印完整的成绩单。
运行应用程序并等待它完成。

您已成功转录第一个音频文件。中可以查看所有已提交的转录作业。

步骤4：启用其他AI模型

通过使用转录选项启用我们的任何AI模型，您可以从音频中提取更多见解。在这一步中，您将启用Speaker diarization模型来检测谁说了什么。

创建一个TranscriptionConfig，将speaker_labels设置为True，然后将其作为第二个参数传递给transcribe()。
除了完整的文字记录外，您现在还可以访问每个发言者的发言。

转录对象中的许多属性只有在启用相应的模型后才可用。有关详细信息，请参阅语音转文本和音频智能下的模型。

依赖服务

产品问答

流式语音转文本的延迟是多少？

延迟小于600毫秒。

AssemblyAI的流式语音转文本服务有哪些特点？

特点包括低延迟、行业领先的品质、高并发、自动添加高级标点符号和大小写、自定义词汇、ITN/格式化、话语结束检测等。

如何为转录文本自动添加专有名词的大小写和标点符号？

AssemblyAI的流式语音转文本服务会自动为转录文本添加专有名词的大小写和标点符号。

关于我们

AssemblyAI

企业

联系信息

服务时间： 0:00 - 24:00

网页在线客服：咨询

合作客户

最可能同场景使用的其他API

图片翻译-百度专用API

【更新时间：2024.07.12】图片文字识别+翻译：集成图片文字识别与文本翻译，支持语种自动检测实景回填：支持实景回填，返回图片结果

开发者工具 > 图像工具

142

实时语音翻译-有道专用API

生活服务 > 语言翻译

143

身份管理服务通用API

安全服务 > 身份管理

390

DOTA2数据通用API

运动健康 > 赛事

217

Azure 机器学习专用API 免费

AI技术 > AI+

218


低延迟自动转录现场音频，几乎瞬间，与定制的端点控制。	行业领先的品质获得高度准确的结果。	高并发轻松处理大容量音频文件。

自动添加大小写和标点符号的专有名词的转录文本。	每月更新和改进在我们的更新日志中查看每周的产品和准确性改进。	企业级安全性 AssemblyAI致力于最高标准的安全实践，以确保您和您客户的数据安全。

AssemblyAI 流媒体语音到文本

什么是AssemblyAI 流媒体语音到文本?

AssemblyAI 流媒体语音到文本有哪些核心功能？

AssemblyAI 流媒体语音到文本的核心优势是什么？

低延迟

行业领先的品质

高并发

每月更新和改进

企业级安全性

在哪些场景会用到AssemblyAI 流媒体语音到文本？

1. 语音转文本

2. 语音理解

步骤1：安装SDK

步骤2：配置SDK

步骤3：提交音频进行转录

步骤4：启用其他AI模型

步骤1：安装SDK

步骤2：配置SDK

步骤3：提交音频进行转录

步骤4：启用其他AI模型

API平台

API平台

API学院

公司

AssemblyAI 流媒体语音到文本

什么是AssemblyAI 流媒体语音到文本?

AssemblyAI 流媒体语音到文本有哪些核心功能？

AssemblyAI 流媒体语音到文本的核心优势是什么？

低延迟

行业领先的品质

高并发

每月更新和改进

企业级安全性

在哪些场景会用到AssemblyAI 流媒体语音到文本？

1. 语音转文本

2. 语音理解

步骤1：安装SDK​

步骤2：配置SDK​

步骤3：提交音频进行转录​

步骤4：启用其他AI模型​

步骤1：安装SDK​

步骤2：配置SDK​

步骤3：提交音频进行转录​

步骤4：启用其他AI模型​

API平台

API平台

API学院

公司

步骤1：安装SDK

步骤2：配置SDK

步骤3：提交音频进行转录

步骤4：启用其他AI模型

步骤1：安装SDK

步骤2：配置SDK

步骤3：提交音频进行转录

步骤4：启用其他AI模型