news 2025/12/30 14:17:39

速度与准确性的结合:量化感知 LLM 预训练 “QAP“

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
速度与准确性的结合:量化感知 LLM 预训练 “QAP“

概述

尽管 LLM 在许多自然语言处理任务中都表现出了不俗的性能,但其推理速度和内存占用却是生产中的主要瓶颈。量化是解决这一问题的一种广泛应用的方法。然而,传统的量化方法存在一个问题,即通过降低模型的准确性来换取推理速度的提高。

本文表明,通过在 LLM 训练阶段引入量化感知的 “量化感知预训练”(QAP),可以克服这一权衡问题。

具体来说,通过在模型训练过程中提前模拟量化噪声的方法,实现了一种即使在量化后精度也不会轻易下降的结构。

因此,与传统模型相比,即使量化位宽相同,也能获得更高的精度和更快的推理性能。特别是,事实证明,与 FP16 精度模型相比,4 位量化模型的精度几乎没有下降,从而实现了具有成本效益的 LLM 操作。

建议的方法

本研究提出的核心方法是 QAP。这是一种在模型训练过程中注入伪量化误差,为将来应用量化做准备的方法。与传统的训练后量化(post-training quantisation)不同,QAP 引导模型在学习阶段就自然获得抗量化表示。

具体来说,最容易受到量化影响的线性变换层(尤其是注意力和 MLP)是以 4 位或 6 位精度模拟的,这一点反映在损失函数中。此外,预训练期间使用的数据和超参数与现有的高精度模型基本相同,因此实施 QAP 的额外成本可以忽略不计。
此外,所提出的方法还为量化敏感权重和激活添加了软正则化,从而进一步提高了学习稳定性和量化后的泛化性能。

这种方法可以很容易地集成到标准训练流水线中,具有很强的实用性,将来可以直接实现更快、更节省资源的 LLM。

实验

为了验证所提方法的有效性,作者基于 LLaMA-2 和 Mistral-7B 编制了多个版本的 4 位和 6 位量化 LLM,并对其准确性和推理速度进行了评估。

基准测试使用了多种任务,包括 MMLU、GSM8K 和 HumanEval,并对每个模型的性能进行了比较。

结果显示,与不支持的基本模型相比,在相同位宽下,QAP 实现的模型的准确率提高了 6.3 个百分点。

特别是在推理速度方面,该模型比基于 FP16 的模型快达 2.5 倍,同时运行精度几乎没有损失。

对不同量化方案(如 SmoothQuant、AWQ、GPTQ)的鲁棒性也进行了验证,结果表明,QAP’ed 模型能保持稳定的性能,与量化方案无关。
此外,培训成本的增加也非常小,这表明在现实操作环境中实施 QAP 的门槛很低。

这些结果表明,QAP 可以作为建立快速、节省内存和精确 LLM 的一种有前途的方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/20 20:44:17

数据处理服务:G1/ZGC如何提升稳定性

文章目录数据处理服务:G1/ZGC如何提升稳定性大对象场景GC风险、批处理Heap布局与实时GC价值深度解析📋 目录📊 一、数据处理服务的JVM挑战💡 数据处理负载特征🎯 数据处理内存特征分析⚖️ 二、G1 vs ZGC:数…

作者头像 李华
网站建设 2025/12/19 18:05:38

18、使用 Neutron 创建独立路由器

使用 Neutron 创建独立路由器 1. 创建外部提供商网络 为了让实例具备外部连接能力,Neutron 路由器需要连接到一个可作为外部网络使用的提供商网络。可以使用 openstack network create 命令在管理项目中创建具有以下属性的提供商网络: - 名称:GATEWAY_NET - 类型:VLA…

作者头像 李华
网站建设 2025/12/15 10:31:55

什么是回溯算法

回溯算法(backtracking algorithm)是一种通过穷举来解决问题的方法,它的核心思想是从一个初始状态出发,暴力搜索所有可能的解决方案,当遇到正确的解则将其记录,直到找到解或者尝试了所有可能的选择都无法找…

作者头像 李华
网站建设 2025/12/29 13:08:43

7、OpenStack网络配置与Linux桥接网络详解

OpenStack网络配置与Linux桥接网络详解 1. OpenStack网络服务验证与访问方式 在OpenStack环境中,确保网络服务正常运行是至关重要的。可以使用 openstack network agent list 命令来验证服务是否已注册。当该命令执行后,若 Alive 列下显示一个笑脸,这表明代理与 neut…

作者头像 李华
网站建设 2025/12/15 10:31:28

Web服务器性能优化终极指南:快速提升响应时间

Web服务器性能优化终极指南:快速提升响应时间 【免费下载链接】TinyWebServer :fire: Linux下C轻量级WebServer服务器 项目地址: https://gitcode.com/gh_mirrors/ti/TinyWebServer 还在为网站加载缓慢而困扰吗?想知道如何让服务器响应时间缩短50…

作者头像 李华
网站建设 2025/12/27 20:59:34

古城景区管理|基于springboot + vue古城景区管理系统(源码+数据库+文档)

古城景区管理 目录 基于springboot vue古城景区管理系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue古城景区管理系统 一、前言 博主介绍&…

作者头像 李华