
全面掌握 OpenAPI 规范:定义、生成与集成指南
想象一下,一个如此富有表现力的音频生成模型,它可以用类似人类的节奏讲述故事,用旋律优美的克隆声音说话,或者在两个完全不同的说话者之间进行自然对话,所有这些都可以使用多种语言,无需任何微调。这正是 Higgs Audio v2 所能提供的。这款强大的开源音频基础模型经过超过 1000 万小时精心标注的音频和文本的预训练,突破了文本转语音 (TTS) 和音频合成的极限。Higgs DualFFN
Audio v2 构建于 Llama 3.2-3B 之上,并采用新颖的音频适配器架构,将 LLM 的深度语言理解与尖端的离散音频标记器相结合,能够以仅 25 fps 的速度捕捉语义和声学细节。它在零样本韵律自适应、多语言翻译、多说话者对话生成,甚至同步背景音乐和语音合成方面都表现出色。凭借 Seed-TTS Eval、ESD 和 EmergentTTS-Eval 上的最新成果,以及在情感丰富的生成中超过 GPT-4o-mini-TTS 高达 75.7% 的胜率,该模型不仅是一个技术奇迹,更是对探索语音 AI 未来的邀请。
如果您已准备好使用下一代音频智能进行构建,本指南将指导您在本地安装 Higgs Audio v2,在您的机器上解锁从高保真旁白到实时多语言语音克隆的所有内容。
运行此模型的最低系统要求是:
在本教程中,我们将使用NodeShift的 GPU 虚拟机,因为它能够以非常实惠的价格提供高计算能力的虚拟机,并且其规模符合 GDPR、SOC2 和 ISO27001 的要求。此外,它还提供了直观且用户友好的界面,使初学者能够更轻松地开始云部署。不过,您也可以选择其他云服务提供商,并按照相同的步骤完成本教程的其余部分。
访问app.nodeshift.com并填写基本信息创建一个帐户,或者继续使用您的 Google/GitHub 帐户注册。
如果您已经有帐户,请直接登录到您的仪表板。
访问您的帐户后,您应该会看到一个仪表板(见图),现在:
这些 GPU 节点是由 NodeShift 打造的 GPU 虚拟机。这些节点高度可定制,让您可以根据需求控制从 H100 到 A100 的 GPU、CPU、RAM 和存储的不同环境配置。
2. 接下来,您需要选择一种身份验证方法。有两种方法可用:密码和 SSH 密钥。我们建议使用 SSH 密钥,因为它更安全。要创建密钥,请参阅我们的官方文档。
最后一步是为虚拟机选择一个映像,在我们的例子中是Nvidia Cuda。
就这样!现在您可以部署节点了。完成配置摘要,如果看起来不错,请点击“创建”来部署节点。
复制详细信息时,请按照以下步骤通过 SSH 连接到正在运行的 GPU VM:
输出:
接下来,如果要检查 GPU 详细信息,请在终端中运行以下命令:
!nvidia-smi
conda create -n higgs python=3.11 -y && conda activate higgs
输出:
2.进入环境后,克隆官方存储库。
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
输出:
3.安装所需的依赖项。
pip install -r requirements.txt
pip install -e .
4.安装PyTorch、transformers和其他python包。
pip install torch torchvision torchaudio
pip install einops timm pillow
pip install transformers==4.47.0 git+https://github.com/huggingface/accelerate
pip install git+https://github.com/huggingface/diffusers
pip install huggingface_hub
pip install sentencepiece bitsandbytes protobuf decord numpy ffmpeg
5.安装并运行jupyter Notebook。
conda install -c conda-forge --override-channels notebook -y
conda install -c conda-forge --override-channels ipywidgets -y
jupyter notebook --allow-root
6. 如果您在远程机器上(例如,NodeShift GPU),则需要执行 SSH 端口转发才能在本地浏览器上访问 jupyter 笔记本会话。
替换后在本地终端运行以下命令:
<YOUR_SERVER_PORT>
使用分配给远程服务器的 PORT(对于 NodeShift 服务器 – 您可以在仪表板上已部署的 GPU 详细信息中找到它)。
<PATH_TO_SSH_KEY>
使用存储 SSH 密钥的位置的路径。
<YOUR_SERVER_IP>
使用远程服务器的 IP 地址。
ssh -L 8888:localhost:8888 -p <YOUR_SERVER_PORT> -i <PATH_TO_SSH_KEY> root@<YOUR_SERVER_IP>
输出:
复制您在远程服务器中收到的 URL:
并将其粘贴到本地浏览器上以访问 Jupyter Notebook 会话。
2.下载模型检查点。
from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent
import torch
import torchaudio
import time
import click
MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"
system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)
messages = [
Message(
role="system",
content=system_prompt,
),
Message(
role="user",
content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
),
]
device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)
output: HiggsAudioResponse = serve_engine.generate(
chat_ml_sample=ChatMLSample(messages=messages),
max_new_tokens=1024,
temperature=0.3,
top_p=0.95,
top_k=50,
stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)
输出:
Higgs Audio v2 展示了富有表现力的音频生成领域的前沿技术,从零样本多语言 TTS 到逼真的多说话人对话,所有这些都得益于 DualFFN 架构、统一音频分词器以及基于 1000 万小时多样化音频的训练等创新技术。本地安装即可为开发者、研究人员和创意人员开启这些高级功能的大门。在 NodeShift Cloud 的支持下,部署过程更加无缝,提供可扩展的计算能力、快速的存储和集成工具,从而加速实验和生产工作流程。
全面掌握 OpenAPI 规范:定义、生成与集成指南
API 网关集成 SkyWalking 打造全方位日志处理
如何使用 Google News API 获取实时新闻数据
REST API:关键概念、最佳实践和优势
如何使用 OpenAI 的 Sora API:综合使用指南
2025年 GitHub 上热门 AI Agents 开源项目:AutoGen、CrewAI、OpenDevin
深入理解 ASP.NET Core Web API:从哲学到一对多模型(Models & 1:N 关系)
从Talkie到DeepSeek:揭秘AI应用出海的盈利路径
如何通过MCP+魔搭免费API搭建本地数据助手