news 2026/2/3 10:06:09

每天一个大模型知识点系列--大模型如何训练,分为哪些阶段

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
每天一个大模型知识点系列--大模型如何训练,分为哪些阶段

大模型的训练数据来自大规模的语料库,数据中包含海量的信息,那如何训练出一个可以进行交互的大语言模型呢?

大语言模型的训练往往包含三个阶段,预训练阶段,监督微调阶段,和强化学习阶段。

第一阶段是pretraining,也就是预训练阶段。预训练阶段的数据由没有标签的海量数据构成,目的是让大模型学会或记住这些知识。训练采用自回归的方法,通过前几个token预测下一个token,从而得到一个基础模型。

第二个阶段是监督微调阶段。当模型拥有了知识之后,下一步是教会大模型如何理解并遵循人类指令回答问题。监督微调阶段使用高质量的“指令-回复”配对数据,对基础模型进行微调。训练数据提供“期望的回复”作为学习目标,使模型从通用的文本生成器,转变为能够理解并遵循人类指令的对话助手。

第三个阶段是RLHF阶段,也就是人类反馈强化学习阶段。在第二阶段模型学会回答问题之后,第三阶段的目的是教会模型按人类的偏好进行学习,目标是让模型的输出更符合人类的安全与价值偏好。首先,收集人类对模型不同回复的偏好数据,训练一个奖励模型来模拟人类的判断。接着,使用强化学习算法,以奖励模型的打分为信号,优化微调后的语言模型,同时约束其输出不要过于偏离微调阶段的水平,以确保生成质量。
如今,直接偏好优化等方法因更简单高效,也常被用于此阶段。首先是对模型提问,让模型输出两个回答,人类专业对回答进行打分,模型根据打分更新模型参数,从而让大模型的回答更符合人类的偏好。

通过这三个阶段的学习,模型记住了知识,学会了回答问题,并通过人类的反馈,使其回答的更加贴合人类的偏好。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/3 5:43:00

SSM线上学习系统8e88w(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面

系统程序文件列表系统项目功能:学院,课程,教师,学生,课程信息,学习记录SSM线上学习系统开题报告一、课题背景与意义1.1 课题背景在“互联网教育”政策推动下,线上学习已成为教育模式的重要组成部分。然而当前部分线上学习工具存在功能单一、数据割裂等问…

作者头像 李华
网站建设 2026/2/1 8:17:37

深度解析:MindsDB与ChromaDB向量数据库集成的高效实战指南

深度解析:MindsDB与ChromaDB向量数据库集成的高效实战指南 【免费下载链接】mindsdb mindsdb/mindsdb: 是一个基于 SQLite 数据库的分布式数据库管理系统,它支持多种数据存储方式,包括 SQL 和 NoSQL。适合用于构建分布式数据库管理系统&#…

作者头像 李华
网站建设 2026/1/30 7:12:56

32、深入了解Samba与Linux安全策略

深入了解Samba与Linux安全策略 在当今复杂的网络环境中,无论是实现不同操作系统间的资源共享,还是保障系统的安全性,都是至关重要的任务。Samba作为实现Linux与Windows系统资源共享的关键工具,以及Linux系统安全策略的制定与实施,对于系统的稳定运行和数据安全起着举足轻…

作者头像 李华
网站建设 2026/2/1 20:33:37

26、调试 Shell 程序的实用方法

调试 Shell 程序的实用方法 在编程过程中,调试是不可或缺的环节。对于使用 bash 进行 UNIX 编程的开发者来说,虽然 bash 具备丰富的特性和控制结构,但缺乏像 C 和 C++ 那样强大且集成的编程支持工具。不过,bash 自身也提供了一些实用的调试功能,下面将详细介绍。 基本调…

作者头像 李华
网站建设 2026/2/3 4:08:54

Symbolic 英文单词学习

1️、基本信息单词:symbolic词性:形容词发音: 🇺🇸 /sɪmˈbɑː.lɪk/🇬🇧 /sɪmˈbɒl.ɪk/词源: 来自希腊语 symbolikos(象征的、符号的),由 s…

作者头像 李华
网站建设 2026/2/3 5:27:38

AI开发全流程工具链:从编码辅助到模型部署的实战指南

在AI开发的浪潮中,工具链已成为效率与质量的决定性因素。本文将系统拆解现代AI开发全流程,涵盖智能编码、数据处理、模型训练、评估部署五大环节,通过5个核心工具、12段实战代码、8个mermaid流程图、15个Prompt示例和6组对比图表,…

作者头像 李华