Higgs Audio v2语音大模型：本地安装和运行指南

想象一下，一个如此富有表现力的音频生成模型，它可以用类似人类的节奏讲述故事，用旋律优美的克隆声音说话，或者在两个完全不同的说话者之间进行自然对话，所有这些都可以使用多种语言，无需任何微调。这正是 Higgs Audio v2 所能提供的。这款强大的开源音频基础模型经过超过 1000 万小时精心标注的音频和文本的预训练，突破了文本转语音 (TTS) 和音频合成的极限。Higgs DualFFNAudio v2 构建于 Llama 3.2-3B 之上，并采用新颖的音频适配器架构，将 LLM 的深度语言理解与尖端的离散音频标记器相结合，能够以仅 25 fps 的速度捕捉语义和声学细节。它在零样本韵律自适应、多语言翻译、多说话者对话生成，甚至同步背景音乐和语音合成方面都表现出色。凭借 Seed-TTS Eval、ESD 和 EmergentTTS-Eval 上的最新成果，以及在情感丰富的生成中超过 GPT-4o-mini-TTS 高达 75.7% 的胜率，该模型不仅是一个技术奇迹，更是对探索语音 AI 未来的邀请。

如果您已准备好使用下一代音频智能进行构建，本指南将指导您在本地安装 Higgs Audio v2，在您的机器上解锁从高保真旁白到实时多语言语音克隆的所有内容。

先决条件

运行此模型的最低系统要求是：

GPU：1x RTX4090 或 1x RTX A6000
存储空间：50 GB（最好）
显存：至少 16 GB
安装 Anaconda

安装和运行 Higgs Audio v2 的分步过程

在本教程中，我们将使用NodeShift的 GPU 虚拟机，因为它能够以非常实惠的价格提供高计算能力的虚拟机，并且其规模符合 GDPR、SOC2 和 ISO27001 的要求。此外，它还提供了直观且用户友好的界面，使初学者能够更轻松地开始云部署。不过，您也可以选择其他云服务提供商，并按照相同的步骤完成本教程的其余部分。

步骤 1：设置 NodeShift 帐户

访问app.nodeshift.com并填写基本信息创建一个帐户，或者继续使用您的 Google/GitHub 帐户注册。

如果您已经有帐户，请直接登录到您的仪表板。

步骤2：创建GPU节点

访问您的帐户后，您应该会看到一个仪表板（见图），现在：

导航至左侧的菜单。
单击 GPU 节点 选项。

1. 单击“开始”开始创建您的第一个 GPU 节点。

这些 GPU 节点是由 NodeShift 打造的 GPU 虚拟机。这些节点高度可定制，让您可以根据需求控制从 H100 到 A100 的 GPU、CPU、RAM 和存储的不同环境配置。

步骤3：选择GPU配置（型号、区域、存储）

在本教程中，我们将使用 1x RTX A6000 GPU，但是，您可以根据先决条件选择任何 GPU。
同样，我们滑动条选择 200GB 存储空间。您还可以从可用区域中选择 GPU 所在的区域。

步骤 4：选择 GPU 配置和身份验证方法

选择所需的配置选项后，您将看到您所在区域可用的 GPU 节点，这些节点与您的配置一致（或非常接近）。在本例中，我们将选择一个 1x RTX A6000 48GB GPU 节点，配置 64 个 vCPU/63GB RAM/200GB SSD。

接下来，您需要选择一种身份验证方法。有两种方法可用：密码和 SSH 密钥。我们建议使用 SSH 密钥，因为它更安全。要创建密钥，请参阅我们的官方文档。

步骤5：选择图像

最后一步是为虚拟机选择一个映像，在我们的例子中是Nvidia Cuda。

就这样！现在您可以部署节点了。完成配置摘要，如果看起来不错，请点击“创建”来部署节点。

步骤 6：使用 SSH 连接到活动计算节点

创建节点后，它将在几秒钟或一分钟内部署完毕。部署完成后，您将看到绿色的“正在运行”状态，这意味着我们的计算节点已准备就绪，可供使用！
一旦您的 GPU 显示此状态，请导航到右侧的三个点，单击使用 SSH 连接，然后复制出现的 SSH 详细信息。

复制详细信息时，请按照以下步骤通过 SSH 连接到正在运行的 GPU VM：

打开您的终端，粘贴 SSH 命令并运行它。
在某些情况下，您的终端可能会在连接前征求您的同意。请输入“是”。
系统会提示输入密码。输入 SSH 密码后即可连接。

输出：

接下来，如果要检查 GPU 详细信息，请在终端中运行以下命令：

!nvidia-smi

步骤 7：设置具有依赖项的项目环境

使用Anaconda创建虚拟环境。

conda create -n higgs python=3.11 -y && conda activate higgs

输出：

2.进入环境后，克隆官方存储库。

git clone https://github.com/boson-ai/higgs-audio.git

cd higgs-audio

输出：

3.安装所需的依赖项。

pip install -r requirements.txt

pip install -e .

4.安装PyTorch、transformers和其他python包。

pip install torch torchvision torchaudio

pip install einops timm pillow

pip install transformers==4.47.0 git+https://github.com/huggingface/accelerate

pip install git+https://github.com/huggingface/diffusers

pip install huggingface_hub

pip install sentencepiece bitsandbytes protobuf decord numpy ffmpeg

5.安装并运行jupyter Notebook。

conda install -c conda-forge --override-channels notebook -y

conda install -c conda-forge --override-channels ipywidgets -y

jupyter notebook --allow-root

如果您在远程机器上（例如，NodeShift GPU），则需要执行 SSH 端口转发才能在本地浏览器上访问 jupyter 笔记本会话。

替换后在本地终端运行以下命令：

<YOUR_SERVER_PORT>使用分配给远程服务器的 PORT（对于 NodeShift 服务器 – 您可以在仪表板上已部署的 GPU 详细信息中找到它）。

<PATH_TO_SSH_KEY>使用存储 SSH 密钥的位置的路径。

<YOUR_SERVER_IP>使用远程服务器的 IP 地址。

ssh -L 8888:localhost:8888 -p  -i  root@

输出：

复制您在远程服务器中收到的 URL：

并将其粘贴到本地浏览器上以访问 Jupyter Notebook 会话。

步骤 8：下载并运行模型

在 Jupyter 中打开一个 Python 笔记本。

2.下载模型检查点。

)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

import torch

import torchaudio

import time

import click



MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"

AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"



system_prompt = (



    "Generate audio following instruction.nnnAudio is recorded from a quiet room.n"



)



messages = [

    Message(

        role="system",

        content=system_prompt,

    ),

    Message(

        role="user",

        content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",

    ),

]

device = "cuda" if torch.cuda.is_available() else "cpu"



serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)



output: HiggsAudioResponse = serve_engine.generate(

    chat_ml_sample=ChatMLSample(messages=messages),

    max_new_tokens=1024,

    temperature=0.3,

    top_p=0.95,

    top_k=50,



    stop_strings=["", ""],



)

torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

输出：

结论

Higgs Audio v2 展示了富有表现力的音频生成领域的前沿技术，从零样本多语言 TTS 到逼真的多说话人对话，所有这些都得益于 DualFFN 架构、统一音频分词器以及基于 1000 万小时多样化音频的训练等创新技术。本地安装即可为开发者、研究人员和创意人员开启这些高级功能的大门。在 NodeShift Cloud 的支持下，部署过程更加无缝，提供可扩展的计算能力、快速的存储和集成工具，从而加速实验和生产工作流程。