news 2026/3/10 9:26:41

数据结构:后缀数组

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据结构:后缀数组

后缀数组

资料:https://pan.quark.cn/s/43d906ddfa1bhttps://pan.quark.cn/s/90ad8fba8347https://pan.quark.cn/s/d9d72152d3cf

一、后缀数组的定义

后缀数组(Suffix Array,简称 SA)是一种针对字符串的高效数据结构,它将字符串的所有后缀字典序排序后,存储这些后缀的起始索引

给定一个长度为n的字符串S = s₀s₁…sₙ₋₁,其第i个后缀为S[i:] = sᵢsᵢ₊₁…sₙ₋₁。后缀数组sa是一个长度为n的数组,满足sa[k] = i表示k小的后缀是S[i:],且字典序满足S[sa[0]:] < S[sa[1]:] < … < S[sa[n-1]:]

辅助数组

为了高效处理后缀相关问题,通常会搭配两个辅助数组:

  1. 排名数组rkrk[i] = k表示后缀S[i:]在排序后的后缀数组中排名为k,与sa互为逆数组,即sa[rk[i]] = irk[sa[k]] = k
  2. 高度数组heightheight[k]表示排名为k的后缀与排名为k-1的后缀的**最长公共前缀(LCP)**长度,即height[k] = LCP(S[sa[k]:], S[sa[k-1]:]),规定height[0] = 0

二、后缀数组的核心特性

  1. 字典序有序性:后缀数组中的后缀按字典序升序排列,这是解决字符串匹配、重复子串等问题的基础。
  2. 排名与后缀的双向映射:通过sark可以快速查询后缀的排名,或排名对应的后缀起始索引。
  3. 最长公共前缀的传递性:利用height数组可快速计算任意两个后缀的最长公共前缀长度:LCP(i,j) = min{height[rk[i]+1 ... rk[j]]}(假设rk[i] < rk[j])。

三、后缀数组的构建算法

构建后缀数组的核心是对所有后缀进行高效排序,直接排序的时间复杂度为O(n² log n)(比较两个后缀的时间为O(n)),对于长字符串效率极低。因此需要更优的算法,常用的有:

1. 倍增算法(主流算法)

核心思想:通过倍增长度的方式,逐步确定每个后缀的排名,避免直接比较长后缀。

  • 步骤
    1. 初始化:先对每个字符(长度为 1 的子串)排序,得到初始的sark
    2. 倍增排序:对于长度len = 2,4,8,…,将每个后缀的前len个字符拆分为len/2字符len/2字符,以(rk[i], rk[i+len/2])为关键字进行排序,更新sark
    3. 终止条件:当len ≥ n时,所有后缀的排名已确定。
  • 时间复杂度O(n log n),实现简单且效率较高,是工程中常用的方法。

2. DC3 算法

核心思想:基于基数排序的分治算法,将后缀分为三类进行排序,进一步优化时间复杂度。

  • 时间复杂度O(n),但实现复杂,适合对时间要求极高的场景。

四、后缀数组的实现示例(倍增算法)

defbuild_sa(s):n=len(s)sa=list(range(n))rk=[ord(c)forcins]# 初始排名为字符的ASCII码tmp=[0]*n# 临时数组,用于排序k=1# 倍增长度whilek<n:# 排序关键字:(rk[i], rk[i+k]),i+k超出范围则为-1defcmp(i):return(rk[i],rk[i+k]ifi+k<nelse-1)# 对sa数组按新关键字排序sa.sort(key=cmp)# 更新tmp数组为新的排名tmp[sa[0]]=0p=0# 排名计数器foriinrange(1,n):# 若当前后缀与前一个后缀的关键字不同,排名+1ifcmp(sa[i])!=cmp(sa[i-1]):p+=1tmp[sa[i]]=p# 更新rk数组rk[:]=tmp[:]k*=2# 倍增长度returnsa,rkdefbuild_height(s,sa,rk):n=len(s)height=[0]*n k=0# 公共前缀长度foriinrange(n):ifrk[i]==0:continueifk>0:k-=1j=sa[rk[i]-1]# 前一个排名的后缀起始索引# 扩展公共前缀长度whilei+k<nandj+k<nands[i+k]==s[j+k]:k+=1height[rk[i]]=kreturnheight

使用示例

s="abracadabra"n=len(s)sa,rk=build_sa(s)height=build_height(s,sa,rk)print("字符串:",s)print("后缀数组 sa:",sa)print("排名数组 rk:",rk)print("高度数组 height:",height)# 输出解释:# sa[0] = 10 表示排名0的后缀是 s[10:] = "a"# rk[10] = 0 表示后缀 s[10:] 排名为0# height[1] 表示排名1的后缀与排名0的后缀的最长公共前缀长度

五、后缀数组的时间复杂度

  • 构建(倍增算法)O(n log n),其中排序的时间为O(n log n),倍增的次数为log n
  • 高度数组构建O(n),利用公共前缀的传递性,避免重复比较。
  • 查询任意两后缀的 LCP:若搭配**区间最小值查询(RMQ)**预处理height数组,查询时间为O(1),预处理时间为O(n log n)

六、后缀数组的典型应用

后缀数组是处理字符串问题的“万能工具”,常用于以下场景:

  1. 字符串匹配:在主串S中匹配模式串P,可将PS的后缀数组中的后缀进行二分查找,时间复杂度O(|P| log |S|)
  2. 最长重复子串:字符串中出现至少两次的最长子串,其长度等于height数组的最大值。
  3. 最长公共子串:给定两个字符串ST,拼接为S + '#' + T后构建后缀数组,找到分别来自ST的后缀的最大height值。
  4. 不同子串计数:字符串中不同子串的总数为n(n+1)/2 - sum(height[1...n-1])(总子串数减去重复子串数)。
  5. 后缀排序与字典序相关问题:如求字符串的最小表示、按后缀字典序输出子串等。

七、后缀数组与其他字符串结构的对比

数据结构核心优势适用场景时间复杂度(构建)
后缀数组处理 LCP 问题高效,功能全面重复子串、公共子串、匹配O(n log n)
字典树(Trie)前缀匹配高效前缀查询、词频统计O(n)
后缀自动机(SAM)空间效率极高,支持动态添加海量字符串的子串问题O(n)

后缀数组的优势在于直观易懂功能全面,缺点是空间复杂度较高(需存储sarkheight三个数组),而后缀自动机在空间和时间上更优,但理解和实现难度更大。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/9 20:26:11

一张学术海报10分钟搞定:PPT手把手攻略+97套免抠素材随领

学术海报快速制作指南目标读者&#xff1a;科研人员、学生、需要快速制作学术海报的群体 核心需求&#xff1a;现成素材库&#xff0c;10分钟完成专业级海报设计PPT设计技术模块页面设置 标准学术海报尺寸&#xff08;A0/A1&#xff09;的PPT参数&#xff1a;宽度84.1cm&#x…

作者头像 李华
网站建设 2026/3/4 19:51:58

Flink学习笔记:多流 Join

前面我们已经了解了 Flink 几个核心概念&#xff0c;分别是时间、Watermark 已经窗口。今天我们来一起了解下 Flink 是怎么进行多个流的 Join 的。我们今天从两个流的 Join 来入手&#xff0c;扩展到多个流也是一样的道理。Flink 中的 Join 可以分为两种&#xff1a;Window Joi…

作者头像 李华
网站建设 2026/3/8 14:54:12

AI产品经理必读:构建智能交互系统的终极指南!

简介 文章介绍了构建智能交互系统的关键要点&#xff1a;需求分析需考虑环境特征、用户状态和任务目标&#xff1b;技术选型应平衡成本与效果&#xff0c;避免盲目追求大模型&#xff1b;交互设计要消除歧义&#xff0c;关注情感交互&#xff1b;建立数据闭环实现持续优化&…

作者头像 李华
网站建设 2026/3/8 18:08:48

谷歌浏览器性能面板使用指南

谷歌浏览器性能面板使用指南一、打开性能面板的方法1. 访问方式按 F12 或 CtrlShiftI (Windows/Linux) / CmdOptionI (Mac) 打开开发者工具选择 "Performance" 选项卡或使用快捷键 CtrlShiftE (Windows/Linux) / CmdShiftE (Mac)2. 录制配置刷新页面录制: 点击刷新按…

作者头像 李华
网站建设 2026/3/8 17:56:01

警惕绿色积分陷阱!一分钟揭秘消费骗局

绿色消费积分爆火,但背后暗藏风险&#xff01;提醒身边人 别让“绿色”变“血色”&#xff01;正规模式&#xff1a;国家鼓励积分兑换&#xff0c;需有实体支撑&#xff0c;用户消费获积分&#xff0c;逐步释放兑换商品&#xff0c;三方共建保障价值。但骗局套路更需警惕&#…

作者头像 李华