炼石成丹：大语言模型微调全流程实战 —— 从 0 到 1 搭建高可用、低成本、可复现微调流水线

在上一篇《数据篇》中，我们完成了“矿石”的清洗、切割与称重；而在本篇，我们将把矿石投入熔炉，炼出真正的“仙丹”。通过大语言模型微调的全流程实战，你将学会：

挑选炼丹炉：最契合你的框架与工具
掌控火候：高效的微调策略对比
估算柴薪：GPU/显存/费用一目了然
实时监控：关键指标与可视化仪表盘搭建
持续迭代：快速出炉你的完美“仙丹”

无论你是算法科学家、MLOps 工程师，还是想把开源大模型**“调教”成企业级客服机器人的产品经理，都能在这份实战手册中找到可落地脚本**、排坑指南和成本优化秘籍。

第一章炼丹炉排行榜：六把开源“神器”横评

名称	GitHub Star	一句话卖点	适合人群	缺点
ms-swift	3k	阿里系、支持通义千问，中文文档完善	国内开发者	社区规模较小
Firefly	4k	全流程脚本化，一键跑LoRA	大语言模型微调新手	新模型适配较慢
DeepSpeedExamples	9k	微软官方，极致分布式	拥有 A100 集群的大团队	配置复杂
unsloth	10k	训练速度×2，显存减半	单卡玩家	仅支持 Llama2/3
LLaMA-Factory	23k	全家桶（SFT/RLHF/量化）+ WebUI	所有人	代码量庞大
FastChat	26k	主打推理 & 在线标注，社区活跃	需要 RLHF 数据闭环	微调功能相对弱

选型建议

个人开发者：1 小时跑通 LoRA → LLaMA‑Factory
企业团队：需要 RLHF、DPO、ORPO 全链路 → LLaMA‑Factory + SageMaker
单卡极限：仅有 4090，追求最高性价比 → unsloth

第二章火候三味：全参数 vs PEFT vs LoRA

全参数微调（Full Fine‑Tuning）
- 优点：最纯正的“药性”
- 缺点：显存 & 成本惊人
- 示例：7B FP16 ≈ 28 GB，65B ≈ 260 GB
PEFT（Parameter‑Efficient Fine‑Tuning）
- 只炼外层“药皮”，保留核心权重
- Adapter 参数 < 1% 模型体量
- 优势：显存 & 费用大幅下降

LoRA & QLoRA

LoRA：7B + rank=64 → 显存降至 12 GB，性能损失 < 3%
QLoRA：再配合 4‑bit 量化，7B 6 GB 即可跑，4090 单卡可训

任务复杂度 ↑
         │     全参数
         │  P‑Tuning v2
         │      LoRA
         │     QLoRA
└────────→ 资源预算

第三章柴薪清单：GPU/显存/费用速查

模型规模	全参数 FP16	LoRA r=64	QLoRA 4‑bit	推荐 GPU	Spot 单价（北京）
7B	28 GB	12 GB	6 GB	1×A10G	¥1.8/小时
13B	52 GB	24 GB	12 GB	1×A100 40G	¥4.5/小时
30B	120 GB	48 GB	24 GB	2×A100 80G	¥9.0/小时
65B	260 GB	96 GB	48 GB	4×A100 80G	¥18/小时

省钱技巧：

SageMaker Spot 实例最低 3 折可用，训练中断自动恢复；
ModelHub 勾选「Spot+Checkpoint」，系统自动保存断点。

第四章炉鼎实操：两种主流路径

路径 A：SageMaker BYOC（Bring Your Own Container）

制作镜像

FROM 763104351884.dkr.ecr.cn-northwest-1.amazonaws.com.cn/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04
RUN pip install llama-factory[metrics,bitsandbytes]
COPY ./scripts /opt/ml/code
ENV SAGEMAKER_PROGRAM train.py

上传数据到 S3

aws s3 cp dataset.jsonl s3://your-bucket/data/

启动训练任务

from sagemaker.pytorch import PyTorch
estimator = PyTorch(
   entry_point='train.py',
   role=role,
   image_uri='…/llama-factory:latest',
   instance_type='ml.g5.12xlarge',
   use_spot_instances=True,
   checkpoint_s3_uri='s3://your-bucket/checkpoints/',
   hyperparameters={…}
)
estimator.fit({'train': 's3://your-bucket/data/'})

路径 B：ModelHub 无代码平台

CloudFormation 一键部署（5 min）
控制台上传数据集（拖拽 JSONL）
选模型 → LoRA → 调滑块（epoch / lr / rank）
点击「开始训练」，实时监控 loss（W\&B 已集成）
训练完成后「部署 Endpoint」，获得 RESTful API

第五章炼丹口诀：超参数调校心法

学习率 (lr)
- 7B LoRA：2e‑4 \~ 5e‑4
- 65B LoRA：5e‑5 \~ 1e‑4
Epoch & Early Stop
- < 10 k 样本：3–5 epoch + early stop patience=1
- > 100 k 样本：1–2 epoch 即可，防止过拟合
Batch Size & 梯度累积
```
per_device_train_batch_size=1
gradient_accumulation_steps=32
```
等同 global batch=32，但显存仅算1条。
Warmup & Scheduler
- warmup_ratio=0.03
- scheduler=cosine（余弦退火）

第六章火候监控：指标仪表盘搭建

CloudWatch：train/loss、eval/loss、learning_rate、GPUUtilization
Weights & Biases：
```
import wandb
wandb.init(project='llama2-7b-alpaca-zh')
```
一行代码接入，自动记录 loss、grad_norm、文本样本，并通过 sweep 快速对比多组超参。
人类反馈闭环：FastChat + Gradio，用户点赞/踩 → 数据写回 S3，下一轮 RLHF 继续精炼。

第七章常见问题 & 灵丹妙方

症状	诊断	药方
loss 不下降	lr 太小 / 数据脏	升 lr 10×，并清洗训练集
eval 高 train 低	过拟合	加 dropout、减 epoch、数据增强
显存 OOM	batch 太大 / 序列长	梯度累积 + FlashAttention2
中文乱码	template 错	确认 `template=qwen` 而非 llama

第八章结丹 & 收丹

合并 LoRA

python scripts/export_model.py \
 --model_name_or_path NousResearch/Llama-2-7b-hf \
 --adapter_name_or_path ./saves/llama2-7b-lora \
 --export_dir ./models/llama2-7b-chat

量化压缩
- GPTQ 4‑bit → 显存再减半，速度×1.3
- AWQ 4‑bit → 精度更高，推荐 TGI/vLLM 部署
评估
- 自动：C-Eval、CMMLU、MMLU
- 人工：100 条业务 badcase，3 人盲评
部署
- SageMaker Endpoint：弹性伸缩，支持 1000 QPS
- Serverless Inference：零流量时零成本，适合低频场景

大语言模型微调不是一锤子买卖，而是「数据 → 训练 → 评估 → 数据」的螺旋上升。今天你或许只炼得“小还丹”，但只要持续迭代，终有一日定能炼成“九转金丹”。

原文引自：https://aws.amazon.com/cn/blogs/china/practical-series-on-fine-tuning-large-language-models-part-two/

炼石成丹：大语言模型微调全流程实战 —— 从 0 到 1 搭建高可用、低成本、可复现微调流水线

文章目录

第一章炼丹炉排行榜：六把开源“神器”横评

第二章火候三味：全参数 vs PEFT vs LoRA

第三章柴薪清单：GPU/显存/费用速查

第四章炉鼎实操：两种主流路径

路径 A：SageMaker BYOC（Bring Your Own Container）

路径 B：ModelHub 无代码平台

第五章炼丹口诀：超参数调校心法

第六章火候监控：指标仪表盘搭建

第七章常见问题 & 灵丹妙方

第八章结丹 & 收丹

热门API

最新文章

炼石成丹：大语言模型微调全流程实战 —— 从 0 到 1 搭建高可用、低成本、可复现微调流水线

文章目录

第一章 炼丹炉排行榜：六把开源“神器”横评

第二章 火候三味：全参数 vs PEFT vs LoRA

第三章 柴薪清单：GPU/显存/费用速查

第四章 炉鼎实操：两种主流路径

路径 A：SageMaker BYOC（Bring Your Own Container）

路径 B：ModelHub 无代码平台

第五章 炼丹口诀：超参数调校心法

第六章 火候监控：指标仪表盘搭建

第七章 常见问题 & 灵丹妙方

第八章 结丹 & 收丹

热门API

最新文章

第一章炼丹炉排行榜：六把开源“神器”横评

第二章火候三味：全参数 vs PEFT vs LoRA

第三章柴薪清单：GPU/显存/费用速查

第四章炉鼎实操：两种主流路径

第五章炼丹口诀：超参数调校心法

第六章火候监控：指标仪表盘搭建

第七章常见问题 & 灵丹妙方

第八章结丹 & 收丹