语音转文本-Google Cloud

专用API

服务商： Google

【更新时间: 2024.06.28】 Google Cloud语音转文本使用功能强大的 API 将语音准确地转换为文本。它通过使用准确的字幕转录您的语音来提供出色的用户体验。它还通过从客户互动中获取和转录的见解来帮助改进您的服务。

免费（每月前 50 万个字符）去服务商官网采购>

浏览次数

146

采购人数

试用次数

SLA: N/A

响应: N/A

适用于个人&企业

书签名称

确定

相似API

短语音识别-百度

采用领先国际的流式端到端语音语言一体化建模方法，融合百度自然语言处理技术，近场中文普通话识别准确率达98%

Azure 语音转文本

367

Azure语音转文本利用AI将语音实时转录为多语言文本，支持定制模型提升专业术语识别，增强音频内容的可用性和价值。

文本转语音服务-Azure AI

1.1K

Azure AI的文本转语音服务，这是一款强大的文本到语音应用。它能够将文本巧妙地转换为极其逼真的语音，实现文字转语音的智能语音生成，并且支持多种语言，让文本与语音之间的转换轻松而高效。

API详情
定价
使用指南
常见 FAQ
关于我们
相关推荐

产品介绍

什么是Google Cloud的语音转文本?

Google Cloud 依托 AI 技术的 API 可帮助您大规模翻译文档、网站、应用、音频文件、视频等内容，并提供出色的质量以及企业级控制和安全性。

Google Cloud的语音转文本有哪些核心功能？

1. 高级语音 AI

Speech-to-Text 可以利用 Chirp，这是 Google Cloud 的语音基础模型，使用数百万小时的音频数据和数十亿个文本句子训练而成。这与传统语音识别技术（侧重于大量特定于语言的监督数据）形成了鲜明对比。这些技术可以为用户提高识别和转录能力，从而更好地理解口语和口音。

支持 125 种语言和语言变体

通过广泛的语言支持打造全球用户群。转录短音频、长音频甚至流式传输的音频数据。Speech-to-Text 还利用新一代通用语音模型 Chirp，为用户提供更加准确、覆盖全球的翻译和识别。Chirp 使用数百万小时的音频和 280 亿个句子的文本（涵盖 100 多种语言）的自监督训练构建而成。

2. 用于转写的预训练模型或可自定义的模型

从多种经过训练的模型中进行选择，实现优化的语音控制、电话和视频转录，满足特定领域的质量要求。通过 Speech-to-Text 界面，轻松自定义、试验、创建和管理自定义资源。

3. 开箱即用的监管和安全合规性

无需额外设置，Speech-to-Text API v2 即可帮助企业客户满足额外安全和监管要求。数据驻留支持通过完全区域化的服务（该服务接入至新加坡和比利时等 Google Cloud 区域）来调用转录模型。借助识别器应变性 (resourcefulness)，您无需使用专用服务账号进行身份验证和授权。您可以在 Google Cloud 控制台中轻松查看关于资源生成和转写的日志。Speech-to-Text API v2 为所有资源以及批量转录提供使用客户管理的加密密钥的企业级加密。

4. AI 赋能的语音识别和转录

Speech-to-Text 使用模型自适应技术来提高常用字词的准确性、扩充可用于转录的词汇，并改善嘈杂音频的转录效果。模型自适应可让用户自定义 Speech-to-Text，使其能够更频繁地使用同音字词中的某一个而非建议的其他选项。例如，您可以让 Speech-to-Text 在转录时更多地使用“时常”而不是“时长”。

Google Cloud的语音转文本的核心优势是什么？

凭借 AI 技术，保障出色的翻译质量以及企业级的控制和安全性。
运用 Google 的神经机器翻译技术，支持使用预训练的自定义模型或专用大语言模型（LLM）进行动态翻译。
设有基础和高级版本，高级版具备特定的自定义功能。
每月为用户提供前 500,000 个字符（基础版和高级版总计）的免费处理额度（LLM 除外）。

在哪些场景会用到Google Cloud的语音转文本？

创建音频转写内容了解如何在 Cloud 控制台中使用 Speech-to-Text API 只通过几个步骤创建音频转写内容。您还可以转录短音频、长音频和流式音频。
利用 AI 为视频创建字幕转写音频和视频以添加字幕。为现有内容添加字幕，或实时向流式传输内容添加字幕。我们的视频转写模型非常适合为视频和/或有多人说话的内容编制索引或编排字幕，该模型使用与 YouTube 视频字幕类似的机器学习技术。本教程介绍了如何使用 Google Cloud AI 服务 Speech-to-Text API 和 Translation API 为视频添加字幕，以及提供其他语言的本地化字幕。
将 Speech-to-Text 添加到应用了解如何借助 Google Cloud 快速轻松地为您的应用启用 Speech-to-Text。此视频介绍了如何在没有大量机器学习模型经验的情况下将 AI 添加到您的应用。利用预训练的 Speech-to-Text API，您可以快速轻松地为应用启用 AI。
利用 Google Cloud API 处理语言、语音、文本和翻译在本课程中，您将使用 Speech-to-Text API 将音频文件转录为文本文件，使用 Google Cloud Translation API 进行翻译，并使用 Natural Language AI 创建合成语音。

产品价格

适用范围：

个人&企业

免费方式：

有限试用

定价方式：

按量（例如每次/元、每token/美元）, 支持定制

价格：

价格详情：

使用指南

1. 创建或选择项目

如需使用 Google Cloud 提供的服务，您必须创建一个项目。项目用于组织您的所有 Google Cloud 资源。项目由一组协作者、已启用的 API（和其他资源）、监控工具、结算信息以及身份验证和访问权限控制组成。您可以创建一个项目，也可以创建多个项目，并使用这些项目按资源层次结构组织 Google Cloud 资源。创建项目时，请记下项目 ID。您需要此 ID 才能进行 API 调用。如需详细了解项目，请参阅 Resource Manager 文档。

2. 启用结算功能

您必须启用结算功能才能使用 Cloud Translation。如需详细了解 Cloud Translation 价格，请参阅价格页面。

3. 启用 API

您必须为项目启用 Cloud Translation API。如需详细了解如何启用 API，请参阅 Service Usage 文档。

启用 Cloud Translation API。

4. 设置用量配额

Cloud Translation 提供了配额管理系统，可帮助您和 Google 管理服务的使用。默认情况下，您每天可以发送的字符数没有限制。如果您设置了预算，则建议您监控每日使用量，并根据您计划的支出调整配额。

如需详细了解配额，请参阅配额和限制。

5. 设置身份验证

如果您计划使用 Cloud Translation API，则需要设置身份验证。任何使用 API 的客户端应用都必须经过身份验证，并且拥有所请求资源的访问权限。如需了解详情，请参阅向 Cloud Translation 进行身份验证。

Identity and Access Management 角色

当主账号（用户账号、服务账号等）调用 API 时，Google Cloud 要求主账号具有适当的权限。您可以通过向主账号授予角色来授予权限。如需了解详情，请参阅使用 IAM 控制访问权限。

指南详情链接：https://cloud.google.com/translate/docs/setup?hl=zh-cn

产品问答

基础版和高级版在功能上有哪些具体区别？

基础版提供快速的动态翻译，高级版除基础功能外，还支持特定领域的翻译、带格式文档的翻译和批量翻译等自定义功能。

免费的 500,000 个字符额度是如何计算的？

基础版和高级版发送到 API 进行处理的字符数相加，每月前 500,000 个字符免费。

能否同时使用多个翻译模型？

可以，根据具体需求和场景，灵活选择和搭配使用不同的翻译模型。

关于我们

Google

企业

Google云翻译API提供多语言翻译服务，支持100+语言，采用神经机器翻译技术，提供高质量翻译结果，轻松集成到各种应用中。

联系信息

服务时间： 0:00 - 24:00

电话号码： +1 650-253-0000

网页在线客服：咨询

为什么选择 Google Cloud

科技发展正处于一个前所未有的时代。我们正经历 AI 技术所带来的巨大变革。AI 技术开创了全新的方式，让我们得以更高效地解决问题、与客户互动和完成工作。Google Cloud 已经蓄势待发，随时准备帮助组织在日新月异的 AI 世界中开启新的发展模式。

提高 AI 实力

生成式 AI 已经成为全世界的话题焦点。接下来该怎么做呢？让组织中的每个人都学习生成式 AI 技术，使用它构建体验并部署生成式 AI，同时确保您的数据安全无虞。立即体验面向企业的生成式 AI 解决方案，开启您的旅程。

让数据发挥效用将 Google 的信息方法带入您的组织，利用其简便性、规模、安全性和智能化助力组织发展。Google 可提供全面的数据基础，帮您统一所有工作负载并管理整个数据生命周期。借助这一解决方案，您可以在任何位置运行数据，在所有云环境和本地环境中使用数据，亦可使用热门的 SaaS 应用访问数据。这一解决方案依托 AI 技术构建且专为 AI 打造，为您提供有关机器学习分析的最新工具，让您可以对自定义基础模型执行提示和调优操作，训练并部署这些模型 - 这些都与您的业务数据息息相关。
	基础架构现代化改造您已经准备好在 AI 时代一展身手，但您的云架构能否满足新时代的要求？Google Cloud 可帮助开发者快速、安全地构建经济高效的新一代现代化基础架构，从而满足特定的工作负载和行业需求。它可以为您提供针对 AI 优化的基础架构、基于容器的应用、传统企业工作负载以及高性能的分布式工作负载，同时帮助您降低成本和减少碳足迹。
打造创新文化助力各种规模的团队随时随地使用各种设备出色完成工作。Google Workspace 汇集了现代员工首选的协作和创作工具，包括 Gmail、Google Chat、Google 日历、Google 云端硬盘、Google 文档、Google 表格和 Google Meet。不仅如此，我们还在其中嵌入了易于使用的全新生成式 AI 功能，以帮助提高团队工作效率。Workspace 拥有超过 30 亿的月活跃用户，提供了全球备受欢迎的办公和协作软件。
	获享内置安全功能受益于 Google 提供的安全功能的用户和组织数不胜数，您也同样可以从这些功能中受益。借助 Mandiant 提供的一线情报，我们可以帮助组织实现信息安全转型，让他们了解最新的网络攻击。另外，我们还会为组织提供可检测、调查和应对威胁的现代安全运营平台，以及从设计和根本上保证安全的基础架构平台，还有可帮助维护数字主权的各种控制措施。

最可能同场景使用的其他API

实时语音翻译-有道专用API

【更新时间：2024.06.28】实时语音翻译服务是一款基于先进深度学习技术的翻译工具，能够即时将语音内容转换成多种语言。该服务支持多语言的语音识别与翻译，广泛应用于会议、在线学习和国际交流等场景，为用户提供流畅的跨语言沟通体验。

生活服务 > 语言翻译

143

长语音转写-有道专用API

【更新时间：2024.06.28】长语音转写服务，能够针对一小时以内的长语音文件进行高效转换，将其准确地转写为文本数据。该服务操作便捷，能快速且精准地实现长语音到文本的转换过程，为用户提供可靠的语音转写支持。

开发者工具 > 音频工具

刷脸支付-易生支付专用API

【更新时间：2024.06.28】刷脸支付是一种以AI人脸识别为核心的新型支付方式。人脸识别是百一种基于人的相貌特征信息进行身份认证的生物特征识别度技术，技术的最大特征是能避免个人信息泄露，并采用非接触的方式进行识别。

支付服务 > 聚合支付

Azure 机器学习专用API 免费

【更新时间：2024.06.28】Azure 机器学习服务，可实现在选定的平台上进行 R 和 Python 模型的开发以及运行。它提供强大的功能支持，让用户能便捷、高效地开展相关工作，无论是模型创建还是后续的运行操作，都能轻松完成。

AI技术 > AI+

218

Azure 语音转文本专用API 免费

【更新时间：2024.06.28】Azure语音转文本利用AI将语音实时转录为多语言文本，支持定制模型提升专业术语识别，增强音频内容的可用性和价值。

AI技术 > AI语音

367

产品价格

适用范围：

个人&企业

免费方式：

有限试用

定价方式：

按量（例如每次/元、每token/美元）, 支持定制

价格：

价格详情：

使用指南

1. 创建或选择项目

2. 启用结算功能

您必须启用结算功能才能使用 Cloud Translation。如需详细了解 Cloud Translation 价格，请参阅价格页面。

3. 启用 API

您必须为项目启用 Cloud Translation API。如需详细了解如何启用 API，请参阅 Service Usage 文档。

启用 Cloud Translation API。

4. 设置用量配额

如需详细了解配额，请参阅配额和限制。

5. 设置身份验证

Identity and Access Management 角色

指南详情链接：https://cloud.google.com/translate/docs/setup?hl=zh-cn

依赖服务

产品问答

基础版和高级版在功能上有哪些具体区别？

基础版提供快速的动态翻译，高级版除基础功能外，还支持特定领域的翻译、带格式文档的翻译和批量翻译等自定义功能。

免费的 500,000 个字符额度是如何计算的？

基础版和高级版发送到 API 进行处理的字符数相加，每月前 500,000 个字符免费。

能否同时使用多个翻译模型？

可以，根据具体需求和场景，灵活选择和搭配使用不同的翻译模型。

关于我们

Google

企业

Google云翻译API提供多语言翻译服务，支持100+语言，采用神经机器翻译技术，提供高质量翻译结果，轻松集成到各种应用中。

联系信息

服务时间： 0:00 - 24:00

电话号码： +1 650-253-0000

网页在线客服：咨询

为什么选择 Google Cloud

提高 AI 实力

让数据发挥效用将 Google 的信息方法带入您的组织，利用其简便性、规模、安全性和智能化助力组织发展。Google 可提供全面的数据基础，帮您统一所有工作负载并管理整个数据生命周期。借助这一解决方案，您可以在任何位置运行数据，在所有云环境和本地环境中使用数据，亦可使用热门的 SaaS 应用访问数据。这一解决方案依托 AI 技术构建且专为 AI 打造，为您提供有关机器学习分析的最新工具，让您可以对自定义基础模型执行提示和调优操作，训练并部署这些模型 - 这些都与您的业务数据息息相关。
	基础架构现代化改造您已经准备好在 AI 时代一展身手，但您的云架构能否满足新时代的要求？Google Cloud 可帮助开发者快速、安全地构建经济高效的新一代现代化基础架构，从而满足特定的工作负载和行业需求。它可以为您提供针对 AI 优化的基础架构、基于容器的应用、传统企业工作负载以及高性能的分布式工作负载，同时帮助您降低成本和减少碳足迹。
打造创新文化助力各种规模的团队随时随地使用各种设备出色完成工作。Google Workspace 汇集了现代员工首选的协作和创作工具，包括 Gmail、Google Chat、Google 日历、Google 云端硬盘、Google 文档、Google 表格和 Google Meet。不仅如此，我们还在其中嵌入了易于使用的全新生成式 AI 功能，以帮助提高团队工作效率。Workspace 拥有超过 30 亿的月活跃用户，提供了全球备受欢迎的办公和协作软件。
	获享内置安全功能受益于 Google 提供的安全功能的用户和组织数不胜数，您也同样可以从这些功能中受益。借助 Mandiant 提供的一线情报，我们可以帮助组织实现信息安全转型，让他们了解最新的网络攻击。另外，我们还会为组织提供可检测、调查和应对威胁的现代安全运营平台，以及从设计和根本上保证安全的基础架构平台，还有可帮助维护数字主权的各种控制措施。

最可能同场景使用的其他API

实时语音翻译-有道专用API

生活服务 > 语言翻译

143

长语音转写-有道专用API

开发者工具 > 音频工具

刷脸支付-易生支付专用API

支付服务 > 聚合支付

Azure 机器学习专用API 免费

AI技术 > AI+

218

Azure 语音转文本专用API 免费

【更新时间：2024.06.28】Azure语音转文本利用AI将语音实时转录为多语言文本，支持定制模型提升专业术语识别，增强音频内容的可用性和价值。

AI技术 > AI语音

367

语音转文本-Google Cloud

什么是Google Cloud的语音转文本?

Google Cloud的语音转文本有哪些核心功能？

1. 高级语音 AI

2. 用于转写的预训练模型或可自定义的模型

3. 开箱即用的监管和安全合规性

4. AI 赋能的语音识别和转录

Google Cloud的语音转文本的核心优势是什么？

在哪些场景会用到Google Cloud的语音转文本？

1. 创建或选择项目

2. 启用结算功能

3. 启用 API

4. 设置用量配额

5. 设置身份验证

Identity and Access Management 角色

为什么选择 Google Cloud

提高 AI 实力

1. 创建或选择项目

2. 启用结算功能

3. 启用 API

4. 设置用量配额

5. 设置身份验证

Identity and Access Management 角色

为什么选择 Google Cloud

提高 AI 实力

API平台

API平台

API学院

公司