ms-swift进阶技巧：自定义数据集格式详解-育师

ms-swift进阶技巧：自定义数据集格式详解

1. 为什么需要自定义数据集

在大模型微调实践中，内置的150+数据集虽然覆盖了预训练、指令微调、人类对齐等主流任务，但真实业务场景往往有其独特性——电商客服对话需要特定话术风格，金融报告生成需符合行业术语规范，医疗问答必须确保专业性和安全性。当标准数据集无法满足需求时，自定义数据集就成了连接模型能力与业务价值的关键桥梁。

ms-swift之所以被开发者广泛采用，一个重要原因就是它对自定义数据集的支持既灵活又严谨：不需要修改框架源码，只需按规范组织数据文件，就能无缝接入训练流程。这种设计让团队能快速验证想法，比如用内部产品文档微调模型生成技术方案，或用历史客服记录训练专属对话助手。

值得注意的是，ms-swift的数据集处理机制并非简单读取JSONL文件。它通过EncodePreprocessor将原始文本转换为模型可理解的token序列，同时自动处理模板注入、截断填充、注意力掩码生成等细节。这意味着你只需关注“数据长什么样”，而不用操心“数据怎么喂给模型”。

2. 数据集格式核心规范

2.1 基础文件结构与命名规则

ms-swift支持三种主流数据格式：JSON、JSONL（每行一个JSON对象）和CSV。其中JSONL是推荐格式，因其流式读取特性可显著降低内存占用，尤其适合处理百万级样本的大数据集。

无论选择哪种格式，文件必须遵循以下命名约定：

文件名应体现数据用途，如finance_qa.jsonl、medical_conversation.jsonl
不得包含空格或特殊字符（建议使用下划线分隔）
编码必须为UTF-8，避免中文乱码问题

// finance_qa.jsonl 示例（每行一个独立JSON对象） {"query": "如何计算企业所得税？", "response": "企业所得税=应纳税所得额×适用税率。应纳税所得额=收入总额-不征税收入-免税收入-各项扣除-允许弥补的以前年度亏损。"} {"query": "增值税专用发票抵扣条件是什么？", "response": "需同时满足：发票真实有效、用于应税项目、在规定期限内认证、进项税额已计入账簿。"}

2.2 必填字段与语义约定

ms-swift对字段名称有明确要求，不同任务类型对应不同字段组合。字段名必须严格匹配，大小写敏感：

任务类型	必填字段	字段说明	典型示例
指令微调（SFT）	`instruction`,`input`,`output`	`instruction`为任务描述，`input`为上下文输入，`output`为期望输出	`{"instruction":"将以下句子翻译成英文","input":"今天天气很好","output":"The weather is nice today."}`
多轮对话	`conversations`	数组形式，每个元素含`role`（user/assistant）和`content`	`{"conversations":[{"role":"user","content":"你好"},{"role":"assistant","content":"您好！有什么可以帮您？"}]}`
DPO偏好学习	`chosen`,`rejected`	`chosen`为优质响应，`rejected`为劣质响应	`{"chosen":"根据《民法典》第1043条...","rejected":"这个我也不太清楚"}`
奖励建模（RM）	`prompt`,`response`,`label`	`label`为0-1之间的浮点数，表示响应质量得分	`{"prompt":"解释量子纠缠","response":"量子纠缠是粒子间的一种关联现象...","label":0.92}`

特别提醒：input字段在指令微调中非必需，当任务无需额外上下文时可省略。但若存在，必须与instruction形成完整语义单元。

2.3 模板适配与字段映射

ms-swift通过模板（template）将原始字段映射到模型输入格式。例如Qwen模型的默认模板会将instruction+input+output组合为：

<|im_start|>system You are a helpful assistant.<|im_end|> <|im_start|>user {instruction}{input}<|im_end|> <|im_start|>assistant {output}<|im_end|>

若你的数据集字段名与标准约定不同（如用question代替instruction），可通过--dataset_config参数指定映射关系：

swift sft \ --model Qwen/Qwen2.5-7B-Instruct \ --dataset ./my_data.jsonl \ --dataset_config '{"question": "instruction", "answer": "output"}' \ --train_type lora

该配置会自动将question字段内容赋值给instruction，answer字段赋值给output，无需手动重命名原始文件。

3. 高级数据格式实践技巧

3.1 多模态数据集构建

对于图文对话、图生文等多模态任务，ms-swift要求图像路径以<image>标签嵌入文本字段。关键在于路径必须为相对路径，且与数据集文件同目录或子目录：

// multimodal_data.jsonl { "instruction": "描述这张图片中的场景", "input": "<image>", "output": "图片显示一位穿白衬衫的男士在咖啡馆靠窗位置使用笔记本电脑，背景有绿植和木质装饰。", "images": ["coffee_shop.jpg"] }

images字段为字符串数组，支持单张或多张图片。框架会自动加载图片并送入视觉编码器。若图片存放在子目录，路径应为images/coffee_shop.jpg。

3.2 动态字段与条件逻辑

实际业务中常需根据数据特征动态调整输入。ms-swift支持在字段值中嵌入Jinja2模板语法，实现条件渲染：

{ "instruction": "请回答以下问题", "input": "{% if category == 'technical' %}技术文档：{{doc}}{% else %}用户反馈：{{feedback}}{% endif %}", "output": "您的问题已解决...", "category": "technical", "doc": "API接口返回401错误码表示未授权访问" }

此功能在构建混合领域数据集时极为实用，比如将技术文档问答与用户投诉处理整合到同一数据集，通过category字段控制模板分支。

3.3 数据采样与权重控制

当数据集质量不均衡时，可通过#N后缀指定样本数量，或#weight=N设置采样权重：

# 加载前1000个样本 --dataset ./high_quality.jsonl#1000 # 按权重混合多个数据集（high_quality占70%，low_quality占30%） --dataset ./high_quality.jsonl#weight=0.7 \ ./low_quality.jsonl#weight=0.3

权重机制基于概率采样，框架会在每个训练step随机选择数据集，选择概率正比于权重值。这比简单拼接数据集更能保证高质量样本的充分学习。

4. 数据预处理与验证工具

4.1 内置校验器使用指南

在启动训练前，强烈建议运行数据校验。ms-swift提供swift dataset-check命令，可检测常见问题：

# 校验单个数据集 swift dataset-check \ --dataset ./my_data.jsonl \ --model Qwen/Qwen2.5-7B-Instruct # 校验多数据集混合效果 swift dataset-check \ --dataset ./qa.jsonl#500 \ ./chat.jsonl#500 \ --model Qwen/Qwen2.5-7B-Instruct \ --max_samples 100

校验输出包含三类信息：

结构合规性：字段缺失、类型错误（如label应为数字却为字符串）
内容合理性：output长度是否过短（<5字符）、instruction是否为空
模板兼容性：字段能否被当前模型模板正确解析（如Qwen模板不支持query字段）

4.2 自定义预处理器开发

当标准字段映射无法满足需求时，可编写Python预处理器。以下是一个清洗医疗文本的示例：

# medical_preprocessor.py from swift.utils import preprocess_dataset def clean_medical_text(dataset): """清洗医疗数据：标准化术语、过滤敏感词""" def process_example(example): # 统一疾病名称（如"心梗"→"急性心肌梗死"） example['instruction'] = example['instruction'].replace('心梗', '急性心肌梗死') example['output'] = example['output'].replace('心梗', '急性心肌梗死') # 过滤含"绝对禁忌"的响应（避免模型学习危险表述） if '绝对禁忌' in example['output']: return None return example return dataset.map(process_example, remove_columns=['id'], num_proc=4) # 在训练命令中引用 swift sft \ --dataset ./medical_data.jsonl \ --preprocessor medical_preprocessor:clean_medical_text \ --model Qwen/Qwen2.5-7B-Instruct

预处理器函数接收HuggingFace Dataset对象，返回处理后的Dataset。remove_columns参数指定删除临时字段，num_proc控制并行进程数。

5. 实战案例：构建电商客服数据集

5.1 业务需求分析

某电商平台需微调模型处理三类客服请求：

订单状态查询（需解析订单号）
退换货政策咨询（需引用最新规则）
商品参数疑问（需结合商品库信息）

标准数据集缺乏平台特有语境，因此需构建专属数据集。

5.2 数据集设计与实现

创建ecommerce_customer_service.jsonl，采用多轮对话格式以模拟真实交互：

{ "conversations": [ {"role": "user", "content": "我的订单JD20240501123456789还没发货，能查下吗？"}, {"role": "assistant", "content": "正在为您查询订单JD20240501123456789...系统显示已于5月2日14:30完成拣货，预计今日发出。"} ], "metadata": { "order_id": "JD20240501123456789", "category": "logistics", "urgency": "high" } }

关键设计点：

conversations字段确保多轮上下文连贯性
metadata存储结构化信息供预处理器使用
订单号采用真实格式（JD+日期+数字），增强模型泛化能力

5.3 预处理器增强逻辑

编写ecommerce_preprocessor.py处理业务逻辑：

import re from datetime import datetime def enhance_ecommerce_data(dataset): def process_example(example): # 从用户消息提取订单号并注入系统提示 user_msg = example['conversations'][0]['content'] order_match = re.search(r'JD\d{15}', user_msg) if order_match: order_id = order_match.group() # 注入系统提示：订单号已识别，调用物流API system_prompt = f"<|im_start|>system\n已识别订单号{order_id}，正在调用物流API查询状态。<|im_end|>" example['conversations'].insert(0, {"role": "system", "content": system_prompt}) # 根据urgency字段调整响应语气 if example.get('metadata', {}).get('urgency') == 'high': example['conversations'][-1]['content'] += "（加急处理中）" return example return dataset.map(process_example, num_proc=4)

该预处理器实现了两个关键能力：自动订单号识别与优先级响应强化，使模型在真实部署中能更精准响应高优先级请求。

6. 常见问题与调试策略

6.1 典型错误诊断表

错误现象	可能原因	解决方案
训练报错`KeyError: 'instruction'`	JSONL字段名不匹配或大小写错误	使用`jq '.' my_data.jsonl \| head -n1`检查首行字段名；确认无多余空格
损失值异常高（>10）	`output`字段为空或过短	运行`swift dataset-check`，检查`output`长度分布；添加`--max_length 2048`确保足够容纳长响应
多模态训练时图片加载失败	`images`路径错误或图片格式不支持	确认图片与JSONL同目录；使用`file coffee_shop.jpg`检查格式（推荐JPEG/PNG）；路径勿含中文
混合数据集训练不稳定	权重设置不合理导致某数据集主导	降低高频数据集权重，如`./qa.jsonl#weight=0.3`；启用`--gradient_accumulation_steps 4`平滑梯度