news 2026/2/16 14:22:38

【LLM基础教程】统计语言模型N-gram

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【LLM基础教程】统计语言模型N-gram

​ 在深度学习语言模型(LSTM、Transformer)出现之前,统计语言模型(Statistical Language Model, SLM)长期占据 NLP 主流地位。它们通过对大量语料进行统计,来估计词序列的概率,是最早被广泛应用于机器翻译、语音识别等系统的语言模型形式。

​ 其中最经典、最重要的统计语言模型就是n-gram 模型

1. n-gram 的基本思想

​ 根据概率论中的链式法则,长度为TTT的词序列x1,⋯ ,xTx_1, \cdots, x_Tx1,,xT的联合概率可以写成:
p(x1,⋯ ,xT)=∏t=1TP(xt∣x1:t−1) p(x_1, \cdots, x_T)=\prod_{t=1}^{T} P(x_t \mid x_{1:t-1})p(x1,,xT)=t=1TP(xtx1:t1)
​ 也就是说,如果我们能够正确建模每一个词在给定前文的情况下出现的概率,就能计算整句的概率。然而,这里会遇到一个致命问题:条件依赖长度太长!xtx_txt要依赖前面所有词,但真实语料根本不可能覆盖如此巨大的组合空间。

​ 于是,n-gram 模型引入了简化假设:马尔可夫假设

(1) 马尔可夫假设

  • 一个词的出现只依赖它前面的n−1n-1n1个词,而不是整个历史。

  • 基于这一假设,我们将复杂的条件概率近似为:
    P(xt∣x1:t−1)≈P(xt∣xt−n+1:t−1) P(x_{t}|x_{1:t-1}) \approx P(x_t|x_{t-n+1:t-1})P(xtx1:t1)P(xtxtn+1:t1)
    这样,原本需要完整上下文的模型就简化成了只依赖固定长度窗口的模型,也就是n-gram 模型

(2) n-gram 的概率估计

Maximum Likelihood Estimation

​ n-gram 的核心是计算:
P(xt∣xt−n+1,⋯ ,xt−1) P(x_t|x_{t-n+1}, \cdots, x_{t-1})P(xtxtn+1,,xt1)
​ 用最大似然估计(MLE)可以直接通过计数求得:
P(xt∣xt−n+1,⋯ ,xt−1)=Count(xt−n+1,⋯ ,xt−1,xt)Count(xt−n+1,⋯ ,xt−1) P(x_t|x_{t-n+1},\cdots,x_{t-1}) = \frac{\mathcal{Count}(x_{t-n+1}, \cdots, x_{t-1}, x_{t})}{\mathcal{Count}(x_{t-n+1}, \cdots, x_{t-1})}P(xtxtn+1,,xt1)=Count(xtn+1,,xt1)Count(xtn+1,,xt1,xt)
nnn的阶数越高,对应的依赖关系就越长。

  • 1-gram(Unigram)

    Unigram 假设所有词独立出现,因此整句概率为:
    P(x1,⋯ ,xt)=∏i=1tP(xi) P(x_1, \cdots, x_t) = \prod_{i=1}^t P(x_i)P(x1,,xt)=i=1tP(xi)
    此模型忽略了所有上下文信息,效果通常最差。

  • 2-gram(Bigram)

    基于一阶马尔可夫假设

    Bigram 是最常用的基础 n-gram 模型,它假设每个词只依赖前一个词:
    P(x1,⋯ ,xt)=P(x1)∏i=2tP(xi∣xi−1) P(x_1, \cdots, x_t) = P(x_1)\prod_{i=2}^t P(x_i|x_{i-1})P(x1,,xt)=P(x1)i=2tP(xixi1<

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/13 7:30:44

v3基于SpringBoot的酒店管理系统

源码可s领取!!V3 基于 Spring Boot 的酒店管理系统是一款专为酒店行业设计的综合性管理解决方案。它依托 Spring Boot 框架的强大功能&#xff0c;旨在帮助酒店实现高效运营、提升服务质量&#xff0c;涵盖从客房管理到客户服务的一系列核心业务流程。核心功能模块客房管理客房…

作者头像 李华
网站建设 2026/2/10 14:20:18

Git安装Windows版本并配置清华镜像用于TensorFlow贡献开发

Git安装Windows版本并配置清华镜像用于TensorFlow贡献开发 在人工智能技术迅猛发展的今天&#xff0c;越来越多的开发者希望通过参与像 TensorFlow 这样的顶级开源项目来提升自身能力、拓展影响力。然而&#xff0c;一个看似简单的操作——从 GitHub 克隆源码&#xff0c;却可…

作者头像 李华
网站建设 2026/2/14 15:36:54

Langchain-Chatchat 0.3.1 Windows本地部署指南

Langchain-Chatchat 0.3.1 Windows本地部署实战指南 在企业对数据安全要求日益严格的今天&#xff0c;如何在不依赖云端服务的前提下&#xff0c;构建一个能理解私有文档内容的智能问答系统&#xff1f;这正是 Langchain-Chatchat 的价值所在。它将大语言模型&#xff08;LLM&…

作者头像 李华
网站建设 2026/2/14 14:15:50

私有云ACK:企业智能化转型的安全基座与算力引擎

私有云ACK&#xff1a;企业智能化转型的安全基座与算力引擎 在数字化转型浪潮下&#xff0c;企业对云基础设施的需求正从“可用”向“安全可控、弹性高效、智能协同”升级。阿里云容器服务Kubernetes版&#xff08;ACK&#xff09;推出的私有云解决方案&#xff0c;通过深度整…

作者头像 李华
网站建设 2026/2/15 10:51:21

Docker部署Qwen3-14B及GPU加速实战

Docker部署Qwen3-14B及GPU加速实战 在智能客服响应越来越依赖大模型的今天&#xff0c;企业真正关心的问题早已不是“能不能生成一段话”&#xff0c;而是——这个模型上线后能扛住流量吗&#xff1f;会不会泄露数据&#xff1f;调用外部系统时够不够聪明&#xff1f; 如果你正…

作者头像 李华
网站建设 2026/2/15 21:31:09

SWIR相机

SWIR相关中文文献检索结果通过检索&#xff0c;以下是与短波红外&#xff08;SWIR&#xff09;相关的中文文献&#xff0c;涵盖技术原理、应用场景及最新研究进展&#xff1a;技术原理与器件《短波红外InGaAs焦平面探测器研究进展》&#xff08;《红外与激光工程》2020年&#…

作者头像 李华