MultipleLevel & Generalized AR
大约 14 分钟
MultipleLevel & Generalized AR
多层次/广义关联规则(Multiple-Level/Generalized Association Rules)是数据挖掘中的一个重要概念,它扩展了传统的关联规则的概念,允许规则在不同的抽象层次上发现有趣的模式。
- 基本关联规则: 在数据挖掘中,最初的关联规则挖掘是为了找出大数据集中的频繁项集,并基于这些频繁项集生成关联规则。例如,在一个零售数据中,可以发现"如果顾客买了啤酒,那么他们也很可能买薯片"这样的规则。
- 广义关联规则: 与基本的关联规则挖掘不同,广义关联规则考虑了项的层次结构或概念层次。例如,考虑一个产品的分类,其中“果汁”可以归纳为“饮料”,而“可乐”也可以归纳为“饮料”。在这种情况下,我们不仅仅关注于具体的商品之间的关联,而是可以探索更高层次的分类之间的关联。
- 多层次关联规则: 在考虑层次结构时,数据可以在多个层次上进行分析,从而生成多层次的关联规则。例如,可以在“产品”、“品类”和“部门”这三个层次上分析销售数据。这意味着规则可以是具体的,如“买了苹果汁就会买橙汁”,也可以是更抽象的,如“买了果汁就会买其他饮料”。
使用多层次/广义关联规则的好处是,它可以帮助用户从不同的角度和抽象层次理解数据,揭示更深层次的模式和关联。为了挖掘这些规则,数据挖掘算法需要能够处理层次结构和不同层次上的频繁项集。这通常比单纯的关联规则挖掘更为复杂。
Concept
- 强化层次结构的项目
- 水平较低的项目预计支持率较低
- 有关适当级别项目集的规则可能非常有用,例如
- 2%® milk → wheat bread
- 2%® milk → bread
- 引入了两种方法,即多层次关联规则和广义关联规则(GAR)。
Redundancy Problem
- 由于项目之间的 "祖先 "关系,有些规则可能是多余的。
- 我们说第一条规则是第二条规则的祖先,第二条规则是多余的。
- 2%® milk → wheat bread
- 2%® milk → bread
- We say the first rule is an ancestor of the second rule. The second rule above is redundant.
- A rule is redundant if its support is close to the “expected” value, based on the rule’s ancestor
Algorithm Basic (Agrawal 95)
挖掘通用规则的直接方法,只需要一个额外步骤:将原始事务 T 中每个项目的所有祖先都添加到 T 中,并称之为扩展事务 T'
在扩展事务上运行任何关联规则挖掘算法(例如 Apriori)
An example:
Uniform VS Reduced
How to set minimum support? Uniform Support vs. Reduced Support
统一支助:为各级提供相同的最低支助额:这意味着无论项集的大小是多少(即包含的项目数量),它们的最小支持度都是相同的。
- 优点:有一个固定的最低支持门槛,这使得查找频繁项集变得更简单,因为一旦一个项集的支持度低于这个门槛,那么包含这个项集的所有超集都不需要进一步考虑。
- 缺点:较低级别的项目不会频繁出现。如果支持阈值
- 过高 -> 错过低层次的关联!
- 太低 -> 产生太多高级关联!
例如,考虑一个超市的购物篮数据。如果我们设置统一支助为10%,则任何出现在少于10%交易中的商品组合都会被忽略。这可能意味着某些不那么常见但仍然有意义的商品组合会被错过。
减少支持:减少较低级别的最低支持。There are 4 search strategies:
- 逐级独立:每一层(项集大小)都有一个独立的最小支持度。
- 通过 k 项集进行水平交叉过滤:根据 k 项集的支持度来调整下一层的最小支持度。
- 按单个项目进行层级交叉过滤:根据单个项目的支持度在不同的层级之间进行调整。
- 通过单个项目控制交叉过滤:根据单个项目的支持度对其他项目进行调整。
例如,考虑同一个超市的购物篮数据。对于单一商品,我们可能会设置一个很低的支持度,如2%。但对于两个商品的组合,我们可能会设置为5%,而对于三个商品的组合,我们可能会设置为8%。
另一个案例
考虑一个书店,其中最受欢迎的书籍是小说,而较少人购买的是科学书籍。
- 使用统一支助:如果我们设置10%的最小支持度,那么可能只有小说之间的组合会被考虑,而所有科学书籍的组合都会被忽略,因为它们可能不满足这个门槛。
- 使用减少支持:我们可能会为单本书设置一个2%的支持度,对于两本书的组合设置5%,对于三本书的组合设置8%。这样,一些科学书籍之间的组合,尽管不太常见,但仍然超过了2%的支持度,因此会被考虑。