LLaMA-Factory正式支持百度文心全系列，实战单卡微调宝可梦图鉴-育师

就在刚刚，百度飞桨官方发布，文心大模型和 LLaMA-Factory 达成生态合作。

现在可以“开箱即用”地支持 ERNIE-4.5 全系列，甚至把 28B 参数量的 ERNIE-4.5-VL 模型微调门槛降到了单张消费级显卡（约 20GB 显存）。

官方放了一个有趣的实战案例，“复刻宝可梦图鉴”。我研究了一下，在这里我把其中的核心逻辑给大家扒一扒。

官方实测环境：A100 下的 40 分钟速通

根据官方披露的数据，利用 LLaMA-Factory 的 4-bit QLoRA 能力，在 NVIDIA A100 环境下，针对前 50 个宝可梦数据集，全流程微调耗时仅需约 40 分钟。

Step 1：环境搭建与模型准备

首先强调的是环境的一致性。因为要支持 ERNIE-4.5-VL，官方使用了开发版的 Transformers 和与之匹配的 ERNIE 模型。

他们提供的初始化脚本非常简洁：

`Bash**

# 浅层克隆 LLaMA-Factory 最新版 !git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git %cd LLaMA-Factory # 安装核心依赖（含 bitsandbytes 和 deepspeed） !pip install -e ".[torch,metrics,bitsandbytes,deepspeed]" !pip install git+https://github.com/huggingface/transformers.git # 从 HF 下载官方指定的 ERNIE 模型版本 from huggingface_hub import snapshot_download snapshot_download(repo_id="baidu/ERNIE-4.5-VL-28B-A3B-PT", revision="refs/pr/10")

Step 2：数据构造（ShareGPT 格式）

在数据处理上，官方演示了如何将图文数据转化为 LLaMA-Factory 支持的 ShareGPT 格式。这对于想做多模态微调的朋友很有参考价值：需要在 conversations 的 value 字段中加入 <image> 标记。

官方给出的 JSON 样本和注册配置如下：

JSON

/* 训练数据片段 */ { "images": ["/data/images/pokemon_019.jpg"], "conversations": [ { "from": "human", "value": "&lt;image&gt;\n这个宝可梦是谁？请描述它。" }, { "from": "gpt", "value": "妙蛙种子：这是一种小型、四足动物..." } ] }

准备好数据后，只需在 dataset_info.json` 里完成注册即可被框架识别。

Step 3：核心配置 YAML

这是整个教程里我最喜欢的部分，配置即代码。官方通过一个 YAML 文件就完成了所有参数设置，不用写繁琐的训练循环。

注意看他们为了适配消费级显卡做的关键配置：

•template: ernie_vl：必须指定这个专用模板。
•quantization_bit: 4：开启 4-bit 量化，这是把 28B 模型塞进 20GB 显存的关键。

`YAML

### 官方提供的 ernie_vl_sft.yaml 核心片段 model_name_or_path: path_to_ernie_local template: ernie_vl finetuning_type: lora lora_target: q_proj,v_proj dataset: pokemon_50 quantization_bit: 4 # 显存优化核心 output_dir: saves/ernie_pokemon

Step 4 & 5：一键训练与推理验证

配置完成后，官方演示的启动命令非常简单：

llamafactory-cli train ernie_vl_sft.yaml

训练结束后，为了验证效果，官方还提供了一段基于 ChatModel` 接口的推理代码。对比效果非常明显：

• 微调前**：模型只能泛泛识别出是“精灵宝可梦”。
•微调后：加载了 Adapter 权重的模型，能够精准说出角色的名字（如妙蛙种子）并描述其外观细节。

写在最后

现在的多模态微调门槛确实被 LLaMA-Factory 拉低了不少。如果你手头有显卡，可以照着这个官方教程复现一下，把自己的数据喂给 ERNIE 试试看。

感兴趣的朋友可以直接去跑一下官方提供的 Google Colab Notebook，或者去 GitHub 仓库拉一下完整代码玩一玩。

• Google Colab在线实战（推荐使用A100-SXM4-80G）
• ERNIE文档GitHub仓库
• LLaMA-Factory GitHub仓库
• 宝可梦数据下载

你是不是也想：摆脱朝九晚五的束缚，拥有一份 “睡后收入”？成为别人口中 “会搞钱的超级个体”，活成自己喜欢的样子？但内容创作太难、账号运营太复杂？别让 “不会” 拦住你的野心！

你要拥抱AI啊，AI是这个时代赋予我们每一个普通人翻身最好的武器，今天给大家推荐一个AI黑科技👉AI黑科技 https://01agent.net?utm_source=csdn小白也能快速出文案、自动做物料、轻松起账号用 AI 当 “外挂”，把你的才华放大 10 倍！从副业小白到超级个体，只差一个AI 武器的距离！

解决WSL注册分发失败：清理缓存与重试策略

解决WSL注册分发失败：清理缓存与重试策略在本地搭建深度学习开发环境时，越来越多的开发者选择在 Windows 上使用 WSL2 运行预配置的 PyTorch-CUDA 镜像。这种组合既能享受 Linux 下灵活的命令行生态，又能无缝调用 NVIDIA GPU 加速模型训练。…

李华

GraphRAG实体消歧技术：如何让AI真正理解文本中的多义实体

GraphRAG实体消歧技术：如何让AI真正理解文本中的多义实体【免费下载链接】graphrag A modular graph-based Retrieval-Augmented Generation (RAG) system 项目地址: https://gitcode.com/GitHub_Trending/gr/graphrag 你是否遇到过这样的情况：A…

李华

Cardinal终极指南：5步快速上手开源虚拟模块合成器

Cardinal终极指南：5步快速上手开源虚拟模块合成器【免费下载链接】Cardinal Virtual modular synthesizer plugin 项目地址: https://gitcode.com/gh_mirrors/ca/Cardinal Cardinal是一款完全免费且开源的虚拟模块合成器插件，支持AudioUnit、CLA…

李华

Wan2.2 MoE视频生成：从技术原理到实战部署全解析

当RTX 4090显卡遇上27B参数的视频生成模型，传统认知中的硬件瓶颈正在被打破。Wan2.2-TI2V-5B作为首个采用混合专家架构的开源视频生成模型，仅激活14B参数即可实现720P24fps的电影级输出，这背后隐藏着怎样的技术革新？ 【免费下载链…

李华

Miniconda vs Anaconda：为何选择Python3.9镜像做深度学习？

Miniconda vs Anaconda：为何选择 Python3.9 镜像做深度学习？ 在构建深度学习开发环境时，一个看似简单却影响深远的决策是：用 Anaconda 还是 Miniconda？使用哪个 Python 版本？ 这个问题背后其实是一场关于“…

李华

NanoMQ快速入门指南：5分钟搭建高性能MQTT消息服务器

NanoMQ快速入门指南：5分钟搭建高性能MQTT消息服务器【免费下载链接】nanomq 项目地址: https://gitcode.com/gh_mirrors/na/nanomq NanoMQ是一款专为物联网边缘计算设计的超轻量级MQTT消息服务器，作为EMQX家族的一员，它以其极小的资…

李华