跳至主要內容

MultipleLevel & Generalized AR

Hirsun大约 14 分钟

MultipleLevel & Generalized AR

多层次/广义关联规则(Multiple-Level/Generalized Association Rules)是数据挖掘中的一个重要概念,它扩展了传统的关联规则的概念,允许规则在不同的抽象层次上发现有趣的模式。

  1. 基本关联规则: 在数据挖掘中,最初的关联规则挖掘是为了找出大数据集中的频繁项集,并基于这些频繁项集生成关联规则。例如,在一个零售数据中,可以发现"如果顾客买了啤酒,那么他们也很可能买薯片"这样的规则。
  2. 广义关联规则: 与基本的关联规则挖掘不同,广义关联规则考虑了项的层次结构或概念层次。例如,考虑一个产品的分类,其中“果汁”可以归纳为“饮料”,而“可乐”也可以归纳为“饮料”。在这种情况下,我们不仅仅关注于具体的商品之间的关联,而是可以探索更高层次的分类之间的关联。
  3. 多层次关联规则: 在考虑层次结构时,数据可以在多个层次上进行分析,从而生成多层次的关联规则。例如,可以在“产品”、“品类”和“部门”这三个层次上分析销售数据。这意味着规则可以是具体的,如“买了苹果汁就会买橙汁”,也可以是更抽象的,如“买了果汁就会买其他饮料”。

使用多层次/广义关联规则的好处是,它可以帮助用户从不同的角度和抽象层次理解数据,揭示更深层次的模式和关联。为了挖掘这些规则,数据挖掘算法需要能够处理层次结构和不同层次上的频繁项集。这通常比单纯的关联规则挖掘更为复杂。

Concept

  • 强化层次结构的项目
  • 水平较低的项目预计支持率较低
  • 有关适当级别项目集的规则可能非常有用,例如
    • 2%® milk → wheat bread
    • 2%® milk → bread
  • 引入了两种方法,即多层次关联规则和广义关联规则(GAR)。
1696682884327.png

Redundancy Problem

  • 由于项目之间的 "祖先 "关系,有些规则可能是多余的。
  • 我们说第一条规则是第二条规则的祖先,第二条规则是多余的。
    • 2%® milk → wheat bread
    • 2%® milk → bread
  • We say the first rule is an ancestor of the second rule. The second rule above is redundant.
  • A rule is redundant if its support is close to the “expected” value, based on the rule’s ancestor

Algorithm Basic (Agrawal 95)

挖掘通用规则的直接方法,只需要一个额外步骤:将原始事务 T 中每个项目的所有祖先都添加到 T 中,并称之为扩展事务 T'

在扩展事务上运行任何关联规则挖掘算法(例如 Apriori)

An example:

1696686817205.png1696686834226.png1696686937192.png

Uniform VS Reduced

How to set minimum support? Uniform Support vs. Reduced Support

统一支助:为各级提供相同的最低支助额:这意味着无论项集的大小是多少(即包含的项目数量),它们的最小支持度都是相同的。

  • 优点:有一个固定的最低支持门槛,这使得查找频繁项集变得更简单,因为一旦一个项集的支持度低于这个门槛,那么包含这个项集的所有超集都不需要进一步考虑。
  • 缺点:较低级别的项目不会频繁出现。如果支持阈值
    • 过高 -> 错过低层次的关联!
    • 太低 -> 产生太多高级关联!

例如,考虑一个超市的购物篮数据。如果我们设置统一支助为10%,则任何出现在少于10%交易中的商品组合都会被忽略。这可能意味着某些不那么常见但仍然有意义的商品组合会被错过。

减少支持:减少较低级别的最低支持。There are 4 search strategies:

  • 逐级独立:每一层(项集大小)都有一个独立的最小支持度。
  • 通过 k 项集进行水平交叉过滤:根据 k 项集的支持度来调整下一层的最小支持度。
  • 按单个项目进行层级交叉过滤:根据单个项目的支持度在不同的层级之间进行调整。
  • 通过单个项目控制交叉过滤:根据单个项目的支持度对其他项目进行调整。

例如,考虑同一个超市的购物篮数据。对于单一商品,我们可能会设置一个很低的支持度,如2%。但对于两个商品的组合,我们可能会设置为5%,而对于三个商品的组合,我们可能会设置为8%。

1696696690685.png1696696757725.png

另一个案例

考虑一个书店,其中最受欢迎的书籍是小说,而较少人购买的是科学书籍。

  • 使用统一支助:如果我们设置10%的最小支持度,那么可能只有小说之间的组合会被考虑,而所有科学书籍的组合都会被忽略,因为它们可能不满足这个门槛。
  • 使用减少支持:我们可能会为单本书设置一个2%的支持度,对于两本书的组合设置5%,对于三本书的组合设置8%。这样,一些科学书籍之间的组合,尽管不太常见,但仍然超过了2%的支持度,因此会被考虑。