news 2026/1/3 6:16:11

Apriori,ECLAT,FP-Growth(手写推导)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Apriori,ECLAT,FP-Growth(手写推导)

挖掘频繁项集的三种算法:Apriori,ECLAT,FP-Growth

Apriori

缺陷:需要多次扫描数据库(I/O开销大),且生成的候选项集数量可能极其庞大 。

为了解决 Apriori 的 IO 和候选集问题,PPT 提到了几种优化:

Partitioning (分区):只需要扫描两次数据库。原理是“局部频繁才可能全局频繁” 。

DHP (Direct Hashing and Pruning):利用哈希桶计数来预先过滤无效的 k-itemsets

如果一个 k-项集对应的哈希桶(Bucket)里的总计数小于 minsup,那么该 k-项集一定不频繁

课件例题

挖掘频繁项集(字有点丑哈,凑合看)

ECLAT

这个方法有点类似信息检索中的倒排表

课件例题

FP-Growth

采用分治的思想

深度优先搜索 (Depth-first search)通过递归挖掘 FP-tree,避免了重复扫描数据库(通常只需扫描两次)

优势:只需要扫描两次数据库;无需生成海量候选集;利用前缀共享压缩存储

例题1

例题2

模式评估

高支持度和高置信度的规则可能是有误导性的

“打篮球->吃麦片”的置信度是 66%,看起来很高。但如果全校学生吃麦片的比例本来就是 75%,那么打篮球实际上降低了吃麦片的概率(负相关)。

提升度lift,衡量X,Y是否独立

=1独立(无关),>1正相关(有用),<1 负相关

(这里有个符号很坑的点,∪这个符号表示的是XY同时出现,可能是表示包含在一次事务中,不要看成集合里的交集了)

课件例题

lift的问题

Null Transactions (空事务):既不包含 X 也不包含 Y 的事务(例如超市里既没买牛奶也没买咖啡的海量交易)

Kulc

Imbalance Ratio (IR)

空值不变性是指:如果我们在数据集中增加或减少这些“无关的空交易”,某个度量指标的数值保持不变,那么该指标就具有空值不变性。

  • 不具备空值不变性的指标:Lift,。在处理稀疏大数据(如文本挖掘、推荐系统)时要慎用,因为绝大多数数据都是“空”的(比如两个词在绝大多数文档中都不出现)。

  • 具备空值不变性的指标:Kulczynski, Cosine, Jaccard。它们只关注“有非零值”的部分,因此更适合大规模数据挖掘。

其他简单例题

置信度与支持度

置信度注意哪个是分母!

模式压缩

1.频繁项集支持度为1,也就是这100个都出现,他们组成的子集都符合条件,根据集合非空子集的个数:2^100-1(很有意思,这个情况就像是在求集合的非空子集,也就是把不同事务看作集合,求它的所有非空子集,然后取并集)

2.思路,根据已有的集合,从大集合中删除它的支持度不同的子集

目前最大的集合是{a1,....,a100},它的子集有{a1}{a1,a2}..{a1,.....a50},{a1,...a50,a51}...

对于a1}{a1,a2}..{a1,.....a50}....即不包含a51-a100的集合,他们出现了两次,支持度为2

因为支持度不同,所以{a1,....,a100}不会删去他们,包含a51-a100的集合,count被删去了

再看进一步的特殊情况{a1,.....a50},它的子集都包含了两次,都删除

所以只剩下{a1,....,a100}:1,{a1,.....a50}:2

3.思路,根据已有的集合,从大集合中删除它的子集,无论支持度是什么情况

目前最大的集合是{a1,....,a100}囊括了所有的子集,所以都删掉了只剩它子集

例题

分别找出所有的:

  1. 频繁项集 (Frequent Itemsets)

  2. 闭频繁项集 (Closed Patterns)

  3. 极大频繁项集 (Max-Patterns)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/2 13:33:10

为什么说Open-AutoGLM支持手机是AI平民化的里程碑?

第一章&#xff1a;Open-AutoGLM支持手机是AI平民化的里程碑 Open-AutoGLM正式宣布支持移动端部署&#xff0c;标志着大型语言模型从云端实验室走向大众日常设备的重要转折。这一技术突破使得普通用户无需依赖高性能计算服务器&#xff0c;也能在智能手机上运行具备自主推理能力…

作者头像 李华
网站建设 2026/1/1 23:13:14

在线笔记分享平台的设计与实现开题报告

本科生毕业设计&#xff08;论文&#xff09;开题报告 论文题目&#xff1a; 学 院&#xff1a; 学 号&#xff1a; 专业班级&#xff1a; 学生姓名&#xff1a; 指导教师&#xff1a; 2024年12月27日 目 录 1 课题研究目的及意义 2 课题研究现状…

作者头像 李华
网站建设 2026/1/2 15:32:59

uni-app跨平台开发终极指南:从零到一掌握多端开发艺术

还在为不同平台重复编写代码而烦恼吗&#xff1f;uni-app正是为你量身打造的解决方案&#xff01;这个基于Vue.js的跨平台框架&#xff0c;让你用一套代码征服iOS、Android、Web及各大主流小程序平台。今天&#xff0c;我将带你以全新的视角探索uni-app的世界&#xff0c;告别枯…

作者头像 李华
网站建设 2026/1/2 0:40:21

Windows 7终极指南:如何免费获取最后一个VSCode v1.70.3免安装版本

Windows 7终极指南&#xff1a;如何免费获取最后一个VSCode v1.70.3免安装版本 【免费下载链接】Windows7上最后一个版本的VSCodev1.70.3解压免安装版本 本仓库提供了一个适用于 Windows 7 的最后一个版本的 Visual Studio Code&#xff08;VSCode&#xff09;&#xff0c;版本…

作者头像 李华
网站建设 2026/1/2 6:36:16

Brave浏览器终极隐私保护指南:简单几步实现安全上网

在数字化时代&#xff0c;你的每一次点击都可能被追踪&#xff0c;个人信息正面临前所未有的威胁。Brave浏览器作为隐私保护的先锋&#xff0c;正在重新定义安全浏览的边界&#xff0c;让每个人都能享受到真正私密的网络体验。 【免费下载链接】brave-browser Brave browser fo…

作者头像 李华
网站建设 2026/1/2 22:43:47

掌握FreeCAD插件生态:5步解锁无限建模潜能

掌握FreeCAD插件生态&#xff1a;5步解锁无限建模潜能 【免费下载链接】FreeCAD This is the official source code of FreeCAD, a free and opensource multiplatform 3D parametric modeler. 项目地址: https://gitcode.com/GitHub_Trending/fr/freecad 你是否曾为Fre…

作者头像 李华