所有文章 > AI驱动 > Higgs Audio v2语音大模型:本地安装和运行指南
Higgs Audio v2语音大模型:本地安装和运行指南

Higgs Audio v2语音大模型:本地安装和运行指南

想象一下,一个如此富有表现力的音频生成模型,它可以用类似人类的节奏讲述故事,用旋律优美的克隆声音说话,或者在两个完全不同的说话者之间进行自然对话,所有这些都可以使用多种语言,无需任何微调。这正是 Higgs Audio v2 所能提供的。这款强大的开源音频基础模型经过超过 1000 万小时精心标注的音频和文本的预训练,突破了文本转语音 (TTS) 和音频合成的极限。Higgs DualFFNAudio v2 构建于 Llama 3.2-3B 之上,并采用新颖的音频适配器架构,将 LLM 的深度语言理解与尖端的离散音频标记器相结合,能够以仅 25 fps 的速度捕捉语义和声学细节。它在零样本韵律自适应、多语言翻译、多说话者对话生成,甚至同步背景音乐和语音合成方面都表现出色。凭借 Seed-TTS Eval、ESD 和 EmergentTTS-Eval 上的最新成果,以及在情感丰富的生成中超过 GPT-4o-mini-TTS 高达 75.7% 的胜率,该模型不仅是一个技术奇迹,更是对探索语音 AI 未来的邀请。

如果您已准备好使用下一代音频智能进行构建,本指南将指导您在本地安装 Higgs Audio v2,在您的机器上解锁从高保真旁白到实时多语言语音克隆的所有内容。

先决条件

运行此模型的最低系统要求是:

  • GPU:1x RTX4090 或 1x RTX A6000
  • 存储空间:50 GB(最好)
  • 显存:至少 16 GB
  • 安装 Anaconda

安装和运行 Higgs Audio v2 的分步过程

在本教程中,我们将使用NodeShift的 GPU 虚拟机,因为它能够以非常实惠的价格提供高计算能力的虚拟机,并且其规模符合 GDPR、SOC2 和 ISO27001 的要求。此外,它还提供了直观且用户友好的界面,使初学者能够更轻松地开始云部署。不过,您也可以选择其他云服务提供商,并按照相同的步骤完成本教程的其余部分。

步骤 1:设置 NodeShift 帐户

访问app.nodeshift.com并填写基本信息创建一个帐户,或者继续使用您的 Google/GitHub 帐户注册。

如果您已经有帐户,请直接登录到您的仪表板。

步骤2:创建GPU节点

访问您的帐户后,您应该会看到一个仪表板(见图),现在:

  1. 导航至左侧的菜单。
  2. 单击 GPU 节点 选项。
  1. 单击“开始”开始创建您的第一个 GPU 节点。

这些 GPU 节点是由 NodeShift 打造的 GPU 虚拟机。这些节点高度可定制,让您可以根据需求控制从 H100 到 A100 的 GPU、CPU、RAM 和存储的不同环境配置。

步骤3:选择GPU配置(型号、区域、存储)

  1. 在本教程中,我们将使用 1x RTX A6000 GPU,但是,您可以根据先决条件选择任何 GPU。
  2. 同样,我们滑动条选择 200GB 存储空间。您还可以从可用区域中选择 GPU 所在的区域。

步骤 4:选择 GPU 配置和身份验证方法

  1. 选择所需的配置选项后,您将看到您所在区域可用的 GPU 节点,这些节点与您的配置一致(或非常接近)。在本例中,我们将选择一个 1x RTX A6000 48GB GPU 节点,配置 64 个 vCPU/63GB RAM/200GB SSD。

2. 接下来,您需要选择一种身份验证方法。有两种方法可用:密码和 SSH 密钥。我们建议使用 SSH 密钥,因为它更安全。要创建密钥,请参阅我们的官方文档

步骤5:选择图像

最后一步是为虚拟机选择一个映像,在我们的例子中是Nvidia Cuda

就这样!现在您可以部署节点了。完成配置摘要,如果看起来不错,请点击“创建”来部署节点。

步骤 6:使用 SSH 连接到活动计算节点

  1. 创建节点后,它将在几秒钟或一分钟内部署完毕。部署完成后,您将看到绿色的“正在运行”状态,这意味着我们的计算节点已准备就绪,可供使用!
  2. 一旦您的 GPU 显示此状态,请导航到右侧的三个点,单击使用 SSH 连接,然后复制出现的 SSH 详细信息。

复制详细信息时,请按照以下步骤通过 SSH 连接到正在运行的 GPU VM:

  1. 打开您的终端,粘贴 SSH 命令并运行它。
  2. 在某些情况下,您的终端可能会在连接前征求您的同意。请输入“是”。
  3. 系统会提示输入密码。输入 SSH 密码后即可连接。

输出:

接下来,如果要检查 GPU 详细信息,请在终端中运行以下命令:

!nvidia-smi

步骤 7:设置具有依赖项的项目环境

  1. 使用Anaconda创建虚拟环境。
conda create -n higgs python=3.11 -y && conda activate higgs

输出:

2.进入环境后,克隆官方存储库。

git clone https://github.com/boson-ai/higgs-audio.git
cd higgs-audio

输出:

3.安装所需的依赖项。

pip install -r requirements.txt
pip install -e .

4.安装PyTorch、transformers和其他python包。

pip install torch torchvision torchaudio 
pip install einops timm pillow
pip install transformers==4.47.0 git+https://github.com/huggingface/accelerate
pip install git+https://github.com/huggingface/diffusers
pip install huggingface_hub
pip install sentencepiece bitsandbytes protobuf decord numpy ffmpeg

5.安装并运行jupyter Notebook。

conda install -c conda-forge --override-channels notebook -y
conda install -c conda-forge --override-channels ipywidgets -y
jupyter notebook --allow-root

6. 如果您在远程机器上(例如,NodeShift GPU),则需要执行 SSH 端口转发才能在本地浏览器上访问 jupyter 笔记本会话。

替换后在本地终端运行以下命令:

<YOUR_SERVER_PORT>使用分配给远程服务器的 PORT(对于 NodeShift 服务器 – 您可以在仪表板上已部署的 GPU 详细信息中找到它)。

<PATH_TO_SSH_KEY>使用存储 SSH 密钥的位置的路径。

<YOUR_SERVER_IP>使用远程服务器的 IP 地址。

ssh -L 8888:localhost:8888 -p <YOUR_SERVER_PORT> -i <PATH_TO_SSH_KEY> root@<YOUR_SERVER_IP>

输出:

复制您在远程服务器中收到的 URL:

并将其粘贴到本地浏览器上以访问 Jupyter Notebook 会话。

步骤 8:下载并运行模型

  1. 在 Jupyter 中打开一个 Python 笔记本。

2.下载模型检查点。

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine, HiggsAudioResponse
from boson_multimodal.data_types import ChatMLSample, Message, AudioContent

import torch
import torchaudio
import time
import click

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = (
"Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
)

messages = [
Message(
role="system",
content=system_prompt,
),
Message(
role="user",
content="The sun rises in the east and sets in the west. This simple fact has been observed by humans for thousands of years.",
),
]
device = "cuda" if torch.cuda.is_available() else "cpu"

serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device=device)

output: HiggsAudioResponse = serve_engine.generate(
chat_ml_sample=ChatMLSample(messages=messages),
max_new_tokens=1024,
temperature=0.3,
top_p=0.95,
top_k=50,
stop_strings=["<|end_of_text|>", "<|eot_id|>"],
)
torchaudio.save(f"output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

输出:

结论

Higgs Audio v2 展示了富有表现力的音频生成领域的前沿技术,从零样本多语言 TTS 到逼真的多说话人对话,所有这些都得益于 DualFFN 架构、统一音频分词器以及基于 1000 万小时多样化音频的训练等创新技术。本地安装即可为开发者、研究人员和创意人员开启这些高级功能的大门。在 NodeShift Cloud 的支持下,部署过程更加无缝,提供可扩展的计算能力、快速的存储和集成工具,从而加速实验和生产工作流程。

#你可能也喜欢这些API文章!

我们有何不同?

API服务商零注册

多API并行试用

数据驱动选型,提升决策效率

查看全部API→
🔥

热门场景实测,选对API

#AI文本生成大模型API

对比大模型API的内容创意新颖性、情感共鸣力、商业转化潜力

25个渠道
一键对比试用API 限时免费

#AI深度推理大模型API

对比大模型API的逻辑推理准确性、分析深度、可视化建议合理性

10个渠道
一键对比试用API 限时免费