数据挖掘和数据钓鱼有什么区别?

机器算法验证 术语 数据挖掘
2022-03-12 16:51:33

数据挖掘和数据钓鱼(有时称为钓鱼探险)有什么区别?如果存在差异,您如何区分两者?为什么一个比另一个对研究更“有价值”?

1个回答

这两个概念之间有很多重叠,因此没有明显的区别。但是,我试图指出我认为的差异。

在统计分析上,“远征”几乎总是带有负面含义;这个想法是研究人员从一个关于他们的数据的问题开始(即“我们的数据中这两个变量之间是否存在线性关系?”)。在得出否定结果后,他们用不同的问题“重铸他们的网”(即“这两个变量之间是否存在二次关系?”)等等,直到他们最终找到“统计显着”关系。当然,这里的问题是研究人员做了很多比较,并报告了热门。假设他们没有调整多重比较的 p 值,这个结果将无效。

相比之下,通过数据挖掘(正确完成),您首先要了解您不知道要在数据中测试哪个假设,而是希望在数据中搜索有趣的关系。因此,您将梳理您的数据并寻找将被报告的潜在有趣的关系。需要注意的是,这一步实际上是生成假设,而不是确认;要真正果断地确定您在数据集中发现的有趣关系不仅仅是由于随机机会,它们应该在后续研究(或者独立数据)中得到证实。

数据钓鱼和数据挖掘之间的相似之处在于,在这两种情况下,您都从数据中检查了大量的假设。如果做得正确,数据挖掘不会被反对,因为人们承认你这样做是为了生成有趣的假设以供以后测试,而数据挖掘意味着研究人员没有确认他们在新数据中检查的最终假设放。