数据挖掘中关联规则和决策树之间的实际区别是什么?

机器算法验证 数据挖掘 关联规则
2022-01-23 20:27:18

这两种技术之间的实际差异是否有一个非常简单的描述?

  • 两者似乎都用于监督学习(尽管关联规则也可以处理无监督学习)。

  • 两者都可以用于预测

我发现最接近“好”描述的是Statsoft Textbook他们说关联规则用于:

...检测大型数据集中分类变量的特定值之间的关系或关联。

虽然决策树分类器被描述为用于:

...根据对一个或多个预测变量的测量来预测分类因变量类别中的案例或对象的成员资格。

但是,在 R Data Mining 中,他们给出了关联规则与目标字段一起使用的示例。

所以两者都可以用来预测组成员,决策树可以处理非分类输入数据而关联规则不能处理的关键区别是什么?还是有更根本的东西?一个站点(sqlserverdatamining.com)说关键区别是:

决策树规则基于信息增益,而关联规则基于流行度和/或置信度。

那么(可能回答我自己的问题)这是否意味着关联规则仅根据它们在数据集中出现的频率(以及它们“真实”的频率)进行评估,而决策树实际上是在试图最小化方差?

如果有人知道一个很好的描述,他们会愿意向我指出,那就太好了。

3个回答

基本上,决策树是一种纯粹的分类技术这些技术旨在利用其特征标记未知类别的记录。他们基本上将记录特征集(属性、变量)映射到分类对象类属性(目标变量)中。之间的关系是使用一组标记的记录来学习的,定义为训练集。分类模型的最终目的是最小化未标记记录的错误分类错误,其中模型预测的类别与真实类别不同。特征可以是分类的或连续的。F=F1,,FmCFCF

关联分析第一个应用程序是关于购物篮分析的,在这些应用程序中,您有兴趣找出项目之间的关联,而不特别关注目标项目。常用的数据集是事务性数据集:事务集合中的每一个都包含一组项目。例如: 您有兴趣找出诸如

t1={i1,i2}t2={i1,i3,i4,i5}t3={i2,i3,i4,i5}tn={i2,i3,i4,i5}
{i3,i5}{i4}

事实证明,您可以将关联分析用于某些特定的分类任务,例如当您的所有特征都是分类时。您只需将项目视为特征,但这不是关联分析的诞生目的。

  • “关联规则旨在找到所有高于给定阈值的规则,涉及重叠的记录子集,而决策树在空间中找到大多数记录属于同一类的区域。另一方面,决策树可能会错过关联规则发现的许多预测规则因为它们依次划分为更小的子集。当关联规则没有找到决策树找到的规则时,要么是因为约束修剪了搜索空间,要么是因为支持度或置信度太高。

  • “尽管文献中提出了许多优化,但关联规则算法可能很慢,因为它们在组合空间上工作,而决策树可以相对快得多,因为每次拆分都会连续获得更小的记录子集。”

  • 另一个问题是决策树可以针对同一规则多次重复同一属性,因为这样的属性是一个很好的鉴别器。这不是一个大问题,因为规则是连词,因此可以将规则简化为属性的一个间隔,但这样的间隔通常会很小,而且规则过于具体。”

节选自:

Ordonez, C., & Zhao, K. (2011)。评估关联规则和决策树以预测多个目标属性。智能数据分析,15(2),173-192。

一篇关于这个主题的好文章,绝对值得一读。

我们可能会争辩说,关联规则和决策树都向用户建议了一组规则,因此两者都是相似的,但我们必须了解决策树和关联规则之间的理论差异,以及两者建议的规则在含义或正在使用。

首先,决策树是一种监督方法,算法试图预测“结果”。现实生活中“结果”的典型示例可能是流失、欺诈、对活动的响应等。因此,决策树规则用于预测结果。

关联规则学习是一种无监督方法,算法试图在项目之间找到关联,通常在大型商业数据库中。大型商业数据库的典型示例是包含零售商交易的数据库,例如电子商务网站上的客户购买历史。商品可以是从商店购买的产品,也可以是在线流媒体平台上观看的电影。关联规则学习就是关于购买一种产品如何诱导购买另一种产品。

其次,决策树是基于一些杂质/不确定性指标构建的,例如信息增益、基尼系数或熵,而关联规则是基于支持度、置信度和提升度得出的。

第三,由于决策树是一种“监督”方法,其准确性是可测量的,而关联规则学习是一种“无监督”方法,因此其准确性是主观的。