每天一个大模型知识点系列--大模型如何训练，分为哪些阶段-育师

大模型的训练数据来自大规模的语料库，数据中包含海量的信息，那如何训练出一个可以进行交互的大语言模型呢？

大语言模型的训练往往包含三个阶段，预训练阶段，监督微调阶段，和强化学习阶段。

第一阶段是pretraining，也就是预训练阶段。预训练阶段的数据由没有标签的海量数据构成，目的是让大模型学会或记住这些知识。训练采用自回归的方法，通过前几个token预测下一个token，从而得到一个基础模型。

第二个阶段是监督微调阶段。当模型拥有了知识之后，下一步是教会大模型如何理解并遵循人类指令回答问题。监督微调阶段使用高质量的“指令-回复”配对数据，对基础模型进行微调。训练数据提供“期望的回复”作为学习目标，使模型从通用的文本生成器，转变为能够理解并遵循人类指令的对话助手。

第三个阶段是RLHF阶段，也就是人类反馈强化学习阶段。在第二阶段模型学会回答问题之后，第三阶段的目的是教会模型按人类的偏好进行学习，目标是让模型的输出更符合人类的安全与价值偏好。首先，收集人类对模型不同回复的偏好数据，训练一个奖励模型来模拟人类的判断。接着，使用强化学习算法，以奖励模型的打分为信号，优化微调后的语言模型，同时约束其输出不要过于偏离微调阶段的水平，以确保生成质量。
如今，直接偏好优化等方法因更简单高效，也常被用于此阶段。首先是对模型提问，让模型输出两个回答，人类专业对回答进行打分，模型根据打分更新模型参数，从而让大模型的回答更符合人类的偏好。

通过这三个阶段的学习，模型记住了知识，学会了回答问题，并通过人类的反馈，使其回答的更加贴合人类的偏好。

SSM线上学习系统8e88w（程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上，文末可获取，系统界面在最后面

系统程序文件列表系统项目功能：学院,课程,教师,学生,课程信息,学习记录SSM线上学习系统开题报告一、课题背景与意义1.1 课题背景在“互联网教育”政策推动下，线上学习已成为教育模式的重要组成部分。然而当前部分线上学习工具存在功能单一、数据割裂等问…

李华

深度解析：MindsDB与ChromaDB向量数据库集成的高效实战指南

深度解析：MindsDB与ChromaDB向量数据库集成的高效实战指南【免费下载链接】mindsdb mindsdb/mindsdb: 是一个基于 SQLite 数据库的分布式数据库管理系统，它支持多种数据存储方式，包括 SQL 和 NoSQL。适合用于构建分布式数据库管理系统&#…

李华

32、深入了解Samba与Linux安全策略

深入了解Samba与Linux安全策略在当今复杂的网络环境中，无论是实现不同操作系统间的资源共享，还是保障系统的安全性，都是至关重要的任务。Samba作为实现Linux与Windows系统资源共享的关键工具，以及Linux系统安全策略的制定与实施，对于系统的稳定运行和数据安全起着举足轻…

李华

26、调试 Shell 程序的实用方法

调试 Shell 程序的实用方法在编程过程中，调试是不可或缺的环节。对于使用 bash 进行 UNIX 编程的开发者来说，虽然 bash 具备丰富的特性和控制结构，但缺乏像 C 和 C++ 那样强大且集成的编程支持工具。不过，bash 自身也提供了一些实用的调试功能，下面将详细介绍。基本调…

李华

AI开发全流程工具链：从编码辅助到模型部署的实战指南

在AI开发的浪潮中，工具链已成为效率与质量的决定性因素。本文将系统拆解现代AI开发全流程，涵盖智能编码、数据处理、模型训练、评估部署五大环节，通过5个核心工具、12段实战代码、8个mermaid流程图、15个Prompt示例和6组对比图表，…

李华

SSM线上学习系统8e88w（程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上，文末可获取，系统界面在最后面

深度解析：MindsDB与ChromaDB向量数据库集成的高效实战指南

32、深入了解Samba与Linux安全策略

26、调试 Shell 程序的实用方法

Symbolic 英文单词学习

AI开发全流程工具链：从编码辅助到模型部署的实战指南