Qwen3-1.7B训练日志公开，每一步都清晰可见-育师

Qwen3-1.7B训练日志公开，每一步都清晰可见

最近，阿里巴巴正式开源了新一代通义千问大语言模型系列——Qwen3（千问3），涵盖6款密集模型和2款混合专家（MoE）架构模型，参数量从0.6B到235B不等。其中，Qwen3-1.7B作为轻量级但能力扎实的代表，在资源受限场景下展现出极强的实用性与可部署性。更值得关注的是：社区已有多位开发者完整复现并公开了该模型的微调全流程，从数据准备、环境搭建、LoRA配置、训练执行到模型推理，每一步操作、每一行关键代码、每一个踩坑细节，全部透明可见。

这不是一份“理想化”的教程，而是一份真实跑通的训练日志——没有跳步，没有黑箱，没有“读者自行补充”。它记录的不是理论推演，而是显存报错时怎么调 batch size、tokenizer 适配时哪一行必须加trust_remote_code=True、合并模型后为什么inference_with_context函数要重写……这些只有亲手敲过命令、盯着 loss 曲线起伏、反复重启 kernel 才会记住的细节。

本文将严格基于已验证的实操路径，为你逐段还原这份公开日志的核心脉络。你不需要是算法专家，只要有一块能跑 CUDA 的显卡（哪怕只是 RTX 3060），就能跟着走完从零到可商用金融问答模型的全过程。

1. 数据集构建：让模型学会“看上下文作答”

微调不是凭空开始的。Qwen3-1.7B 已具备强大的通用语言能力，我们要做的，是把它“教会”在特定领域（这里是金融分析）中精准提取信息、严谨组织答案。这依赖于高质量的指令微调数据。

1.1 原始数据来源与筛选逻辑

本次训练采用的是公开金融问答数据集：

https://raw.githubusercontent.com/Steven-Luo/MasteringRAG/main/outputs/v1_1_20240811/question_answer.xlsx

该 Excel 文件包含三列关键字段：question（问题）、context（背景信息片段）、answer（标准答案），并标注了dataset字段用于区分训练/验证/测试集。

我们只保留真正可用于监督微调的样本：

import pandas as pd from datasets import Dataset df = pd.read_excel('https://raw.githubusercontent.com/Steven-Luo/MasteringRAG/main/outputs/v1_1_20240811/question_answer.xlsx') # 仅使用训练集，且 context 必须非空（否则无法构造有效 prompt） df = df[df['context'].notnull() & (df['dataset'] == 'train')]

这个筛选动作看似简单，却直接决定了后续训练的质量上限：空 context 会导致模型学习到“无依据胡说”，混入验证集则破坏评估可信度。

1.2 构造符合 Qwen3 格式的对话样本

Qwen3 系列模型原生支持Qwen3chat template，其输入必须是标准的{"role": "...", "content": "..."}列表格式。我们不能直接把 question + context 拼成字符串喂给模型——那样会丢失角色语义，也无法激活模型内置的思维链（reasoning）机制。

因此，我们定义了一个结构化 prompt 模板：

def build_sample(row): prompt = """ 你是一个金融分析师，擅长根据所获取的信息片段，对问题进行分析和推理。 你的任务是根据所获取的信息片段（<context></context>之间的内容）回答问题。 回答保持简洁，不必重复问题，不要添加描述性解释和与答案无关的任何内容。 已知信息： <context> {context} </context> 问题： {question} 请回答： """.format(context=row['context'], question=row['question']).strip() + '/no_think' return prompt

注意两个关键设计：

/no_think后缀：这是 Qwen3 特有的控制标记，用于在微调阶段禁用模型内部的自动思维链生成，强制它只学习“输入→输出”的映射关系，避免 reasoning 过程干扰监督信号；
context和question被明确包裹在<context>标签内：这与 Qwen3 预训练时看到的文档结构高度一致，极大提升微调收敛速度。

随后，我们将instruction（用户提问）和output（带<think>标签的标准答案）组合为 Hugging FaceDataset：

df['instruction'] = df.apply(lambda row: build_sample(row), axis=1) df['output'] = df['answer'].apply(lambda x: '<think>\n</think>' + x) rag_dataset = Dataset.from_pandas(df[['instruction', 'output']])

1.3 应用 Qwen3 原生对话模板

最后一步至关重要：必须用 Qwen3 自己的 tokenizer 将样本转换为模型能理解的 token ID 序列。这里不能用通用 tokenizer，否则长度截断、特殊 token 插入都会出错。

def generate_conversation(examples): problems = examples["instruction"] solutions = examples["output"] conversations = [] for problem, solution in zip(problems, solutions): conversations.append([ {"role": "user", "content": problem}, {"role": "assistant", "content": solution}, ]) return {"conversations": conversations} # 注意：此处 tokenizer 需提前加载 Qwen3-1.7B 的 tokenizer rag_dataset_conversation = tokenizer.apply_chat_template( rag_dataset.map(generate_conversation, batched=True)["conversations"], tokenize=False, ) train_dataset = Dataset.from_pandas(pd.DataFrame({'text': rag_dataset_conversation})) train_dataset.name = 'text'

此时，train_dataset[0]的内容形如：

[ {"role": "user", "content": "你是一个金融分析师...<context>2023年全球经济增长动力持续回落...</context>问题：2023年全球经济增长的特点是什么?请回答：/no_think"}, {"role": "assistant", "content": "<think>\n</think>2023年全球经济增长动力持续回落，各国复苏分化..."} ]

这才是 Qwen3-1.7B 在训练时真正“看见”的样子——结构清晰、角色明确、意图可控。

2. 环境与模型加载：用 Unsloth 实现低显存高效微调

Qwen3-1.7B 参数量约 17 亿，全参数微调对显存要求极高。但实际工程中，我们并不需要更新全部参数。LoRA（Low-Rank Adaptation）是一种被广泛验证的高效微调技术，它只训练少量新增的低秩矩阵，即可达到接近全参微调的效果。

本日志采用Unsloth框架，它在标准 LoRA 基础上做了多项深度优化，尤其适合 Qwen3 这类采用 Qwen2 架构的模型。

2.1 依赖安装：精简、兼容、无冲突

环境配置是微调成功的第一道门槛。以下命令经过多次验证，确保各库版本兼容：

# 安装核心加速库（注意：xformers 版本必须锁定） pip install --no-deps bitsandbytes accelerate xformers==0.0.29.post3 peft trl==0.15.2 triton cut_cross_entropy unsloth_zoo # 安装数据与生态工具 pip install sentencepiece protobuf "datasets>=3.4.1" huggingface_hub hf_transfer # 关键：transformers 必须为 4.51.3 —— 这是 Unsloth 官方认证的稳定版本 pip install transformers==4.51.3 # 最后安装 Unsloth 主体 pip install --no-deps unsloth

这套组合的关键点在于：

xformers==0.0.29.post3：修复了 Qwen3 中 Flash Attention 2 在某些 GPU 上的崩溃问题；
trl==0.15.2：与transformers==4.51.3完全匹配，避免 SFTTrainer 初始化失败；
--no-deps：防止 pip 自动升级已有依赖，引发隐式冲突。

2.2 模型拉取与 FastLanguageModel 加载

先从 Hugging Face 下载原始权重：

git clone https://huggingface.co/Qwen/Qwen3-1.7B

然后使用 Unsloth 提供的FastLanguageModel进行加载与配置：

from unsloth import FastLanguageModel import torch model, tokenizer = FastLanguageModel.from_pretrained( model_name = "./Qwen3-1.7B", max_seq_length = 4096, load_in_4bit = True, # 4-bit 量化，显存占用降低约 60% load_in_8bit = False, full_finetuning = False, # 启用 LoRA 微调模式 )

load_in_4bit=True是本环节最大亮点：它让原本需要 10GB+ 显存的模型，在 RTX 3090（24GB）上也能轻松容纳 batch_size=2 的训练。max_seq_length=4096则保证模型能处理中等长度的财报文本。

2.3 LoRA 配置：参数选择有依据，不是拍脑袋

LoRA 的核心超参包括r（秩）、alpha（缩放系数）、target_modules（注入层）。本日志的配置如下：

model = FastLanguageModel.get_peft_model( model, r = 32, # 秩：32 是 Qwen3-1.7B 的经验最优值，太小（8）收敛慢，太大（64）易过拟合 target_modules = ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], # 覆盖全部注意力与 FFN 层 lora_alpha = 32, # alpha = r，保持缩放平衡 lora_dropout = 0, bias = "none", use_gradient_checkpointing = "unsloth", # Unsloth 专属优化，长文本训练显存再降 30% )

为什么选r=32？因为 Qwen3-1.7B 的 hidden_size=2048，r=32相当于在每个注入层增加2048×32 + 32×2048 ≈ 13 万个可训练参数，总量仅占原模型的 0.007%，却足以捕获金融领域的语义偏移。

3. 训练执行：SFTTrainer 配置与关键参数解读

有了数据和模型，下一步就是启动训练。本日志使用trl库的SFTTrainer，它专为监督微调设计，比原生 Trainer 更贴合 LLM 场景。

3.1 SFTConfig 详解：每一项都影响最终效果

from trl import SFTTrainer, SFTConfig trainer = SFTTrainer( model = model, tokenizer = tokenizer, train_dataset = train_dataset, eval_dataset = None, args = SFTConfig( dataset_text_field = "text", # 指定数据集中存放 tokenized 文本的字段名 per_device_train_batch_size = 2, # 单卡 batch size，RTX 3090 可稳定运行 gradient_accumulation_steps = 4, # 梯度累积步数，等效 batch_size = 2 × 4 = 8 warmup_steps = 5, # 学习率预热，避免初期梯度爆炸 max_steps = 200, # 总训练步数，小数据集上 200 步已足够收敛 learning_rate = 2e-4, # LoRA 微调经典学习率，过高易震荡，过低收敛慢 logging_steps = 1, # 每步都打印 loss，便于实时监控 optim = "adamw_8bit", # 8-bit AdamW，显存友好且稳定 weight_decay = 0.01, # 权重衰减，抑制过拟合 lr_scheduler_type = "cosine", # 余弦退火，平滑下降学习率 seed = 3407, # 固定随机种子，保证实验可复现 report_to = "none", # 关闭 WandB 等外部报告，专注本地日志 ) ) trainer_stats = trainer.train()

几个容易被忽略但极其关键的点：

gradient_accumulation_steps=4：这是应对显存不足的“软扩容”方案。物理 batch size 为 2，但每 4 步才更新一次参数，等效于 batch_size=8，大幅提升训练稳定性；
logging_steps=1：微调初期 loss 波动剧烈，必须每步都看。如果设为 10，你可能在第 10 步才发现 loss 已经发散，白白浪费算力；
seed=3407：一个被深度学习界广泛采用的“幸运数字”，它确保你在不同机器、不同时间复现同一结果。

3.2 训练过程观察：loss 下降曲线告诉你一切

一次成功的微调，loss 曲线应呈现清晰的三段式特征：

前 20 步：loss 快速下降（从 ~3.5 降至 ~2.0），模型快速吸收基础模式；
20–120 步：loss 缓慢但稳定下降（~2.0 → ~1.3），模型在金融语义空间中精细调整；
120 步后：loss 波动收窄，围绕 ~1.25 小幅震荡，进入收敛平台期。

若出现 loss 不降反升、或在 50 步后仍高于 2.5，则大概率是数据格式错误（如未正确应用 chat template）或 learning_rate 过高。此时应立即中断训练，回查train_dataset[0]的输出是否符合预期。

4. 模型保存与推理：从 LoRA 适配到全参数合并

训练结束，得到的是一个 LoRA 适配器（adapter），它本身不能独立运行，必须与基础模型结合。本日志提供了两种保存方式，适用于不同部署场景。

4.1 保存 LoRA 适配器：轻量、可复用、适合 A/B 测试

model.save_pretrained("lora_model") tokenizer.save_pretrained("lora_model")

生成的lora_model/目录下仅有约 20MB 文件（主要是adapter_model.bin和adapter_config.json），可随时加载到任意 Qwen3-1.7B 基础模型上，实现“一套基础模型，多套业务适配器”的灵活架构。

4.2 合并为全参数模型：开箱即用，部署最简

对于生产环境，我们通常需要一个“开箱即用”的完整模型。Unsloth 提供了高效的合并接口：

version = 1.0 model.save_pretrained_merged(f"model_{version}", tokenizer, save_method = "merged_16bit")

save_method="merged_16bit"表示将 LoRA 权重与基础模型以 FP16 精度合并。合并后的model_1.0/目录大小约 3.2GB，与原始 Qwen3-1.7B（3.1GB）几乎一致，但已具备金融问答能力。

4.3 推理验证：写一个健壮的 inference 函数

合并模型后，必须通过真实样例验证效果。以下是一个生产级推理函数，已处理常见异常：

import torch import gc from transformers import AutoModelForCausalLM, AutoTokenizer def inference_with_context(context, question, model, tokenizer, max_new_tokens=256): # 构造标准 Qwen3 输入 messages = [ {"role": "user", "content": f"""你是一个金融分析师，擅长根据所获取的信息片段，对问题进行分析和推理。 你的任务是根据所获取的信息片段（<context></context>之间的内容）回答问题。 回答保持简洁，不必重复问题，不要添加描述性解释和与答案无关的任何内容。 已知信息： <context> {context} </context> 问题： {question} 请回答："""}, ] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) # Tokenize 并生成 inputs = tokenizer(text, return_tensors="pt").to(model.device) outputs = model.generate( **inputs, max_new_tokens=max_new_tokens, do_sample=True, temperature=0.5, top_p=0.9, pad_token_id=tokenizer.eos_token_id, ) # 解码并提取回答（去除 prompt 和 think 标签） response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True) return response.strip().replace('<think>\n</think>', '').strip() # 加载合并模型进行测试 tokenizer = AutoTokenizer.from_pretrained("./model_1.0", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( "./model_1.0", torch_dtype=torch.float16, trust_remote_code=True, device_map="auto" ) # 示例测试 context1 = """某科技公司2023年第三季度财报显示： - 营业收入：120亿元，同比增长25% - 净利润：18亿元，同比增长30% - 研发投入：15亿元，占营收的12.5% - 现金流：净流入8亿元 - 主要业务：云计算服务、人工智能解决方案""" question1 = "基于这些财务数据，该公司的盈利能力和成长性如何？" print(inference_with_context(context1, question1, model, tokenizer)) # 输出示例：盈利能力强劲，成长性突出。净利润同比增长30%高于营收增速25%，显示成本管控与经营效率提升；研发投入占比12.5%体现长期技术驱动战略。

这个函数的关键设计：

add_generation_prompt=True：自动添加<|im_start|>assistant\n，触发模型生成；
skip_special_tokens=True：过滤掉<|im_end|>等控制 token；
replace('<think>\n</think>', '')：干净地剥离思维链标签，只返回最终答案。

5. LangChain 快速调用：让微调成果秒变 API 服务

训练完成的模型，最终要服务于业务。LangChain 是最便捷的胶水层。本日志提供的调用方式，可直接接入现有 RAG 或 Agent 系统。

5.1 使用 ChatOpenAI 兼容接口

Qwen3-1.7B 镜像已内置 OpenAI 兼容 API 服务（运行在https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1）。只需几行代码，即可像调用 GPT 一样使用它：

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="Qwen3-1.7B", temperature=0.5, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", api_key="EMPTY", extra_body={ "enable_thinking": True, # 启用思维链，让模型展示推理过程 "return_reasoning": True, # 返回 <think>...</think> 内容 }, streaming=True, ) response = chat_model.invoke("你是谁？") print(response.content)

extra_body中的两个参数是 Qwen3 特有的：

enable_thinking=True：激活模型内置的 CoT（Chain-of-Thought）能力；
return_reasoning=True：确保<think>标签内的推理步骤被完整返回，方便前端做分步展示。

5.2 与 LangChain Agent 集成示例

你可以将它无缝嵌入 LangChain Agent，构建金融智能助手：

from langchain.agents import initialize_agent, Tool from langchain.tools import StructuredTool def financial_qa_tool(context: str, question: str) -> str: """金融问答工具：根据上下文回答问题""" return inference_with_context(context, question, model, tokenizer) qa_tool = StructuredTool.from_function( func=financial_qa_tool, name="FinancialQA", description="Use this tool to answer questions based on provided financial context." ) tools = [qa_tool] agent = initialize_agent( tools, chat_model, agent="structured-chat-zero-shot-react-description", verbose=True ) result = agent.invoke({"input": "根据以下财报数据，分析该公司现金流健康度：营业收入120亿，净利润18亿，现金流净流入8亿"}) print(result["output"])

至此，从原始数据、环境配置、模型微调、效果验证到工程集成，整个链条已完全打通。你看到的不是抽象概念，而是每一行可复制、可粘贴、可调试的真实代码。

6. 总结：为什么这份日志值得你认真读完

Qwen3-1.7B 的开源，不仅带来了一个新模型，更提供了一套可被快速复用、深度定制的轻量级大模型落地范式。而这份公开的训练日志，正是这一范式的最佳注解。

它之所以有价值，在于它拒绝简化，拥抱真实：

它告诉你xformers版本必须是0.0.29.post3，而不是笼统地说“安装 xformers”；
它展示r=32是如何在显存与效果间取得平衡，而不是只写一句“设置 LoRA 秩”；
它给出inference_with_context的完整实现，连replace('<think>', '')这样的细节都不省略；
它用SFTTrainer而非Trainer，因为前者专为指令微调而生，后者需要你手动写 data collator。

如果你正面临以下任一场景：

想在自有业务数据上快速微调一个 Qwen3 模型，但被环境配置卡住；
发现微调后 loss 不降，却不知从何排查；
想把微调好的模型集成进现有系统，但找不到稳定可靠的推理接口；
或者，你只是想真正理解：一个大模型从下载到上线，中间到底发生了什么……

那么，这份日志就是为你而写。它不承诺“一键成功”，但它保证：你遇到的每一个报错，都在这里已有答案；你产生的每一个疑问，都在这里已被解答。

真正的技术自由，始于对每一步的掌控。现在，轮到你了。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Qwen3-1.7B训练日志公开，每一步都清晰可见