ms-swift实战：手把手教你完成大模型参数高效微调-育师

ms-swift实战：手把手教你完成大模型参数高效微调

1. 引言

在当前大模型快速发展的背景下，如何高效地对大规模语言模型进行微调成为工程落地的关键挑战。传统全参数微调方式需要巨大的计算资源和显存开销，难以在单卡或有限硬件条件下实现。为此，ms-swift框架应运而生——它是一个轻量级、可扩展的微调基础设施，支持600+纯文本大模型与300+多模态大模型的训练、推理、评测、量化与部署。

本文将基于Qwen2-7B-Instruct模型，使用ms-swift实现 LoRA 参数高效微调（PEFT），涵盖环境搭建、数据准备、命令行/界面两种训练方式、模型推理及导出全流程。通过本教程，你将掌握如何在单张 V100 显卡上完成大模型的高效微调，并应用于实际项目中。

2. 核心概念解析

2.1 什么是参数高效微调（PEFT）

参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）是一种仅更新少量新增参数而冻结预训练模型大部分权重的技术。其核心思想是：不改变原始模型结构的前提下，引入可学习的小型模块来适配下游任务。

相比全参数微调，PEFT 具有以下优势：

显存占用低：仅需训练新增参数，显存消耗降低90%以上
训练速度快：梯度传播路径更短，迭代速度显著提升
易于部署：微调后的权重可以独立保存和加载
支持多任务并行：多个 LoRA 权重可共用一个基础模型

2.2 LoRA 技术原理

LoRA（Low-Rank Adaptation）通过在原始线性层旁路添加低秩矩阵分解的方式实现增量更新：

$$ W_{\text{new}} = W + \Delta W = W + A \cdot B $$

其中： - $W$ 是原始权重矩阵 - $A \in \mathbb{R}^{d \times r}$ 和 $B \in \mathbb{R}^{r \times k}$ 是可训练的低秩矩阵 - $r \ll d, k$，通常设置为8、16等小值

这样原本需要更新 $d \times k$ 参数的操作，变为只需训练 $d \times r + r \times k$ 个参数，在保持性能的同时大幅减少训练成本。

2.3 ms-swift 框架特性

ms-swift 支持多种主流 PEFT 方法，包括：

微调方法	是否支持
LoRA	✅
QLoRA	✅
DoRA	✅
LoRA+	✅
Adapter	✅
LISA	✅

此外还提供如下关键能力： - 多种训练任务支持（SFT、DPO、KTO、RM 等） - 分布式训练（DDP、FSDP、DeepSpeed、Megatron） - 推理加速（vLLM、SGLang、LMDeploy） - Web UI 零代码训练界面 - 自动化评估与模型导出

3. 环境准备

3.1 硬件要求

本文实验环境如下：

GPU：NVIDIA Tesla V100 32GB
CUDA 版本：12.2
操作系统：CentOS 7
Python 版本：3.10

💡 提示：ms-swift 同样支持 A10/A100/H100、RTX 系列、T4/V100、CPU、MPS 及国产 Ascend NPU。

3.2 安装依赖

推荐使用 Conda 创建独立虚拟环境：

conda create --name swift python=3.10 conda activate swift

安装 ms-swift 主体库：

pip install 'ms-swift[all]' -U -i https://pypi.tuna.tsinghua.edu.cn/simple

⚠️ 注意：ms-swift 依赖 PyTorch ≥ 1.13，建议使用 ≥ 2.0.0 版本以获得最佳兼容性。

4. 数据准备

4.1 数据格式规范

ms-swift 支持 ShareGPT 格式的对话数据，基本结构如下：

[ { "conversations": [ {"from": "user", "value": "用户问题"}, {"from": "assistant", "value": "模型回答"} ], "system": "系统提示词（可选）" } ]

4.2 示例数据集构建

创建测试数据文件/data/service/swift/data/qwen_zh_demo.json：

[ { "system": "你是一名优秀的陪聊大师，你的名字叫小蜜。", "conversations": [ {"from": "user", "value": "您和模型关系?"}, {"from": "assistant", "value": "其实我也不是无所不知，但如果能和你多聊几句，我情愿绞尽脑汁。"} ] }, { "system": "你是一名优秀的陪聊大师，你的名字叫小蜜。", "conversations": [ {"from": "user", "value": "请问一下您身份是啥?"}, {"from": "assistant", "value": "我是小蜜，任何时间！任何地点！不论什么事，只要你有疑问都可以来问我哦~"} ] } ]

4.3 数据集描述文件

创建自定义数据集配置文件/data/service/swift/data/custom_dataset_info.json：

{ "qwen_zh_demo": { "dataset_path": "/data/service/swift/data/qwen_zh_demo.json" } }

该文件用于告诉 ms-swift 如何定位本地数据集。

5. 命令行方式微调

5.1 执行 LoRA 微调命令

nohup swift sft \ --model_id_or_path /data/model/qwen2-7b-instruct \ --model_type qwen2-7b-instruct \ --sft_type lora \ --tuner_backend peft \ --dtype fp16 \ --output_dir /data/model/sft/qwen2-7b-instruct-sft \ --dataset qwen_zh_demo \ --custom_dataset_info /data/service/swift/data/custom_dataset_info.json \ --num_train_epochs 1 \ --max_length 2048 \ --lora_rank 8 \ --lora_alpha 32 \ --lora_dropout_p 0.05 \ --lora_target_modules ALL \ --gradient_checkpointing true \ --batch_size 1 \ --weight_decay 0.1 \ --learning_rate 5e-6 \ --gradient_accumulation_steps 1 \ --max_grad_norm 0.5 \ --warmup_ratio 0.03 \ --eval_steps 100 \ --save_steps 100 \ --save_total_limit 2 \ --logging_steps 100 \ --use_flash_attn false > output.txt 2>&1 &

5.2 关键参数说明

参数	说明
`--model_id_or_path`	模型本地路径或 HuggingFace ID
`--model_type`	模型类型，需匹配支持列表
`--sft_type`	训练类型，`lora`表示 LoRA 微调
`--dataset`	数据集名称，对应 custom_dataset_info 中定义
`--custom_dataset_info`	自定义数据集配置文件路径
`--dtype`	训练精度，V100 不支持 bf16，使用 fp16
`--max_length`	输入序列最大长度
`--output_dir`	输出目录，保存 checkpoint
`--gradient_accumulation_steps`	梯度累积步数，显存不足时增大此值
`--num_train_epochs`	训练轮数

5.3 训练过程日志分析

训练过程中输出的日志包含以下关键信息：

{'loss': 1.518, 'acc': 0.631, 'grad_norm': 1.25, 'learning_rate': 6e-08, 'memory(GiB)': 26.07}

loss：训练损失，期望逐渐下降
acc：生成准确率，越高越好
grad_norm：梯度范数，避免爆炸或消失
memory(GiB)：GPU 显存占用情况

最终训练耗时约 9 分 36 秒，显存峰值占用 26.07 GiB。

6. Web UI 方式微调

6.1 启动 Web 界面

nohup swift web-ui --host 0.0.0.0 --port 7860 > output.txt 2>&1 &

访问http://<your-server-ip>:7860即可进入图形化训练界面。

6.2 配置训练参数

在 Web UI 中依次填写：

Model:/data/model/qwen2-7b-instruct
Dataset:qwen_zh_demo
Custom Dataset Info Path:/data/service/swift/data/custom_dataset_info.json
Training Type:lora
Output Dir:/data/model/sft/qwen2-7b-instruct-sft
Epochs:1
Batch Size:1
Learning Rate:5e-6

点击 “Start Training” 开始训练。

6.3 训练结果对比

Web UI 模式下训练 873 步耗时约 7 分 24 秒，平均训练速度达1.96 iter/s，优于命令行模式（1.51 iter/s）。原因在于 Web UI 默认启用了更优的调度策略和批处理优化。

最终验证集准确率达到60.01%，较初始 2.32% 显著提升，表明模型已有效学习到新知识。

7. 模型推理与部署

7.1 加载 LoRA 权重推理

swift infer \ --model /data/model/qwen2-7b-instruct \ --adapters /data/model/sft/qwen2-7b-instruct-sft/checkpoint-873 \ --stream true \ --infer_backend pt \ --temperature 0 \ --max_new_tokens 2048

✅ 注意：--adapters指向保存的 LoRA checkpoint 目录，无需再次指定--model或--system，ms-swift 会自动从args.json中读取配置。

7.2 使用 vLLM 加速推理

合并 LoRA 权重后使用 vLLM 进行高性能推理：

swift infer \ --adapters /data/model/sft/qwen2-7b-instruct-sft/checkpoint-873 \ --merge_lora true \ --infer_backend vllm \ --vllm_max_model_len 8192 \ --stream true \ --temperature 0 \ --max_new_tokens 2048

🚀 优势：vLLM 支持 PagedAttention，吞吐量提升可达 24 倍。

7.3 模型导出与推送

将微调后的模型推送到 ModelScope：

swift export \ --adapters /data/model/sft/qwen2-7b-instruct-sft/checkpoint-873 \ --push_to_hub true \ --hub_model_id 'your-username/qwen2-7b-instruct-lora-demo' \ --hub_token 'your-sdk-token'

支持导出为 Safetensors 格式，并可选择是否合并 LoRA 权重。

8. 最佳实践与避坑指南

8.1 显存优化建议

对于 V100 等老型号 GPU，禁用 Flash Attention：--use_flash_attn false
启用梯度检查点：--gradient_checkpointing true
减小per_device_train_batch_size至 1
使用fp16而非bf16

8.2 数据集注意事项

确保 JSON 文件编码为 UTF-8
conversations字段必须按顺序排列 user/assistant 对话
避免过长上下文（超过 max_length 会被截断）

8.3 常见问题排查

问题	解决方案
OOM（显存溢出）	降低 batch size，启用 gradient_checkpointing
loss 不下降	检查数据格式是否正确，调整 learning_rate
acc 始终为 0	确认 label 是否被正确 tokenize
无法加载模型	检查 model_id_or_path 路径是否存在

9. 总结

本文详细介绍了如何使用ms-swift框架完成大模型的参数高效微调，主要内容包括：

环境搭建：成功安装 ms-swift 并配置运行环境；
数据准备：构建符合 ShareGPT 格式的本地数据集；
LoRA 微调：通过命令行和 Web UI 两种方式完成训练；
模型推理：加载 LoRA 权重进行交互式推理；
模型导出：将微调结果上传至 ModelScope。

ms-swift 凭借其简洁的 API 设计、丰富的功能支持和高效的资源利用率，已成为大模型微调领域的重要工具之一。无论是研究者还是工程师，都能借助它快速实现模型定制化。

🔗延伸阅读： - ms-swift GitHub 仓库 - 支持的模型与数据集列表

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

ms-swift实战：手把手教你完成大模型参数高效微调