Higgs Audio v2语音大模型:本地安装和运行指南
想象一下,一个如此富有表现力的音频生成模型,它可以用类似人类的节奏讲述故事,用旋律优美的克隆声音说话,或者在两个完全不同的说话者之间进行自然对话,所有这些都可以使用多种语言,无需任何微调。这正是 Higgs Audio v2 所能提供的。这款强大的开源音频基础模型经过超过 1000 万小时精心标注的音频和文本的预训练,突破了文本转语音 (TTS) 和音频合成的极限。Higgs DualFFNAudio v2 构建于 Llama 3.2-3B 之上,并采用新颖的音频适配器架构,将 LLM 的深度语言理解与尖端的离散音频标记器相结合,能够以仅 25 fps 的速度捕捉语义和声学细节。它在零样本韵律自适应、多语言翻译、多说话者对话生成,甚至同步背景音乐和语音合成方面都表现出色。凭借 Seed-TTS Eval、ESD 和 EmergentTTS-Eval 上的最新成果,以及在情感丰富的生成中超过 GPT-4o-mini-TTS 高达 75.7% 的胜率,该模型不仅是一个技术奇迹,更是对探索语音 AI 未来的邀请。
如果您已准备好使用下一代音频智能进行构建,本指南将指导您在本地安装 Higgs Audio v2,在您的机器上解锁从高保真旁白到实时多语言语音克隆的所有内容。
先决条件
运行此模型的最低系统要求是:
- GPU:1x RTX4090 或 1x RTX A6000
- 存储空间:50 GB(最好)
- 显存:至少 16 GB
- 安装 Anaconda
安装和运行 Higgs Audio v2 的分步过程
在本教程中,我们将使用NodeShift的 GPU 虚拟机,因为它能够以非常实惠的价格提供高计算能力的虚拟机,并且其规模符合 GDPR、SOC2 和 ISO27001 的要求。此外,它还提供了直观且用户友好的界面,使初学者能够更轻松地开始云部署。不过,您也可以选择其他云服务提供商,并按照相同的步骤完成本教程的其余部分。
步骤 1:设置 NodeShift 帐户
访问app.nodeshift.com并填写基本信息创建一个帐户,或者继续使用您的 Google/GitHub 帐户注册。
如果您已经有帐户,请直接登录到您的仪表板。

步骤2:创建GPU节点
访问您的帐户后,您应该会看到一个仪表板(见图),现在:
- 导航至左侧的菜单。
- 单击 GPU 节点 选项。
1. 单击“开始”开始创建您的第一个 GPU 节点。
这些 GPU 节点是由 NodeShift 打造的 GPU 虚拟机。这些节点高度可定制,让您可以根据需求控制从 H100 到 A100 的 GPU、CPU、RAM 和存储的不同环境配置。
步骤3:选择GPU配置(型号、区域、存储)
- 在本教程中,我们将使用 1x RTX A6000 GPU,但是,您可以根据先决条件选择任何 GPU。
- 同样,我们滑动条选择 200GB 存储空间。您还可以从可用区域中选择 GPU 所在的区域。

步骤 4:选择 GPU 配置和身份验证方法
- 选择所需的配置选项后,您将看到您所在区域可用的 GPU 节点,这些节点与您的配置一致(或非常接近)。在本例中,我们将选择一个 1x RTX A6000 48GB GPU 节点,配置 64 个 vCPU/63GB RAM/200GB SSD。

- 接下来,您需要选择一种身份验证方法。有两种方法可用:密码和 SSH 密钥。我们建议使用 SSH 密钥,因为它更安全。要创建密钥,请参阅我们的官方文档。

步骤5:选择图像
最后一步是为虚拟机选择一个映像,在我们的例子中是Nvidia Cuda。
就这样!现在您可以部署节点了。完成配置摘要,如果看起来不错,请点击“创建”来部署节点。

步骤 6:使用 SSH 连接到活动计算节点
- 创建节点后,它将在几秒钟或一分钟内部署完毕。部署完成后,您将看到绿色的“正在运行”状态,这意味着我们的计算节点已准备就绪,可供使用!
- 一旦您的 GPU 显示此状态,请导航到右侧的三个点,单击使用 SSH 连接,然后复制出现的 SSH 详细信息。
复制详细信息时,请按照以下步骤通过 SSH 连接到正在运行的 GPU VM:
- 打开您的终端,粘贴 SSH 命令并运行它。
- 在某些情况下,您的终端可能会在连接前征求您的同意。请输入“是”。
- 系统会提示输入密码。输入 SSH 密码后即可连接。
输出:
接下来,如果要检查 GPU 详细信息,请在终端中运行以下命令:
!nvidia-smi
步骤 7:设置具有依赖项的项目环境
- 使用Anaconda创建虚拟环境。
conda create -n higgs python=3.11 -y && conda activate higgs
输出:
2.进入环境后,克隆官方存储库。
git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio
输出:
3.安装所需的依赖项。
pip install -r requirements.txt
pip install -e .
4.安装PyTorch、transformers和其他python包。
pip install torch torchvision torchaudio
pip install einops timm pillow
pip install transformers==4.47.0 git+https://github.com/huggingface/accelerate
pip install git+https://github.com/huggingface/diffusers
pip install huggingface_hub
pip install sentencepiece bitsandbytes protobuf decord numpy ffmpeg
5.安装并运行jupyter Notebook。
conda install -c conda-forge --override-channels notebook -y
conda install -c conda-forge --override-channels ipywidgets -y
jupyter notebook --allow-root
- 如果您在远程机器上(例如,NodeShift GPU),则需要执行 SSH 端口转发才能在本地浏览器上访问 jupyter 笔记本会话。
替换后在本地终端运行以下命令:
<YOUR_SERVER_PORT>使用分配给远程服务器的 PORT(对于 NodeShift 服务器 – 您可以在仪表板上已部署的 GPU 详细信息中找到它)。
<PATH_TO_SSH_KEY>使用存储 SSH 密钥的位置的路径。
<YOUR_SERVER_IP>使用远程服务器的 IP 地址。
ssh -L 8888:localhost:8888 -p -i root@
输出:
复制您在远程服务器中收到的 URL:
并将其粘贴到本地浏览器上以访问 Jupyter Notebook 会话。
步骤 8:下载并运行模型
- 在 Jupyter 中打开一个 Python 笔记本。
2.下载模型检查点。
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)
import torch
import torchaudio
import time
import click
MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"
system_prompt = (
"Generate audio following instruction.nnnAudio is recorded from a quiet room.n"
)
messages = [
Message(
role="system",
content=system_prompt,
),
Message(
role="user",
content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
),
]
device = "cuda" if torch.cuda.is_available() else "cpu"
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)
output: HiggsAudioResponse = serve_engine.generate(
chat_ml_sample=ChatMLSample(messages=messages),
max_new_tokens=1024,
temperature=0.3,
top_p=0.95,
top_k=50,
stop_strings=["", ""],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)
输出:

结论
Higgs Audio v2 展示了富有表现力的音频生成领域的前沿技术,从零样本多语言 TTS 到逼真的多说话人对话,所有这些都得益于 DualFFN 架构、统一音频分词器以及基于 1000 万小时多样化音频的训练等创新技术。本地安装即可为开发者、研究人员和创意人员开启这些高级功能的大门。在 NodeShift Cloud 的支持下,部署过程更加无缝,提供可扩展的计算能力、快速的存储和集成工具,从而加速实验和生产工作流程。
热门API
- 1. AI文本生成
- 2. AI图片生成_文生图
- 3. AI图片生成_图生图
- 4. AI图像编辑
- 5. AI视频生成_文生视频
- 6. AI视频生成_图生视频
- 7. AI语音合成_文生语音
- 8. AI文本生成(中国)
最新文章
- 什么是 OpenReview
- Vue中使用echarts@4.x中国地图及AMap相关API的使用
- 使用 Zeplin API 实现 Zeplin 移动化
- Rest API 教程 – 完整的初学者指南
- API Key 密钥 vs OAuth 2.0:身份认证的比较
- Claude API 能使用 OpenAI 接口协议吗?
- 使用DeepSeek R1、LangChain和Ollama构建端到端生成式人工智能应用
- 如何获取通义千问 API Key 密钥(分步指南)
- 您需要了解的OpenAI Assistants API功能 – PageOn.ai
- DRF库详解:用Django轻松搭建功能强大的API服务
- 一文搞懂在 HTTP 如何 one-api 调用,实操指南来袭!
- 探索海洋数据的宝库:Amentum海洋数据探测API的潜力