我是数据挖掘的新手并开始阅读它。实验数据和观察数据之间的确切区别是什么?两者显然都是数据;许多人说观察数据会导致错误。但我想不可能对所有数据集进行实验。我真的很困惑,解释一下什么是实验数据和观察数据,并说什么时候应该使用这些?
提前致谢。
我是数据挖掘的新手并开始阅读它。实验数据和观察数据之间的确切区别是什么?两者显然都是数据;许多人说观察数据会导致错误。但我想不可能对所有数据集进行实验。我真的很困惑,解释一下什么是实验数据和观察数据,并说什么时候应该使用这些?
提前致谢。
哇,这是一个艰难的:-)
这个问题的相关性远不止在数据挖掘中。它一直出现在医学和包括心理学在内的社会科学中。
在得出有关因果关系的结论时,即当您想知道某件事(例如医疗)是否导致另一件事(例如患者康复)时,区分是必要的。成群结队的科学家和哲学家争论你是否可以从观察研究中得出关于因果关系的结论。您可能想查看问题统计和因果推理?.
那么什么是实验?简而言之,实验通常被定义为将观察单元随机分配给不同的条件,并且条件因观察单元的处理而异。治疗是一个通用术语,在医疗应用中最容易翻译(例如,在不同条件下对患者进行不同的治疗),但它也适用于其他领域。实验有多种变化——您可能想先阅读 wikipedia 条目中的Experiment和随机实验—— 但关键点是随机分配受试者到条件。
考虑到这一点,绝对不可能对您想要测试的各种假设进行实验。例如,您有时出于道德原因无法进行实验,例如您不希望人们因治疗而受苦。在其他情况下,进行实验可能在物理上是不可能的。
因此,虽然实验(对治疗条件的控制随机分配)是得出因果关系结论的主要方式——对于某些人来说,这是唯一的方式——在无法进行实验的情况下,人们仍然想做一些经验性的事情. 那是你想做观察性研究的时候。
为了定义观察性研究,我借鉴了保罗·罗森鲍姆在行为科学统计百科全书中的条目:观察性研究是“对治疗组和对照组的经验比较,其目的是阐明因果关系 [.. . 其中] 使用受控实验是不可行的,因为能够强加希望发现其效果的程序或治疗,或将受试者随机分配到不同的程序。在一项观察性研究中,您尝试测量尽可能多的变量,并且您希望检验关于一组变量中的哪些变化与其他变量集的变化相关的假设,通常是为了得出关于因果关系的结论这些关联(见在什么情况下相关性意味着因果关系
观察性研究在哪些方面会导致错误?主要是如果您想得出有关因果关系的结论。出现的问题是,您未观察到的某些变量可能总是有可能是“真正的”原因(通常称为“未测量的混杂”),因此您可能错误地假设您的测量变量之一正在导致某些事情,而“实际上”它是无法衡量的混杂因素之一。在实验中,一般假设是通过随机分配,潜在的混杂因素将被消除。
如果您想了解更多信息,请先浏览提供的链接,然后查看Paul Rosenbaum等人的出版物或iopsych提供的书籍链接: 用于广义因果推理的实验和准实验设计(Shadish、Cook 和 Campbell , (2002)
简而言之:只有所有协变量都在控制之下,并且对可能的混杂因素进行了随机化,或者有足够的信息来正确解释它们,才能真正称为实验性数据。例如,在植物研究中可能出现这种情况,其中基因相同且生长相似的植物是可行的:然后您可以确保只有您感兴趣的变量在感兴趣的组之间有所不同。
(在统计上正确的研究中)最重要的地方是试图找到因果关系。一个典型的例子是服用阿司匹林的人,以及它对心脏病的影响:如果你挑选 100 名服用阿司匹林的人和 100 名不服用阿司匹林的人,然后以某种方式测量他们的心脏状况,那么即使服用阿司匹林的人处于从这项研究降低风险,你不能得出结论说人们都应该服用阿司匹林:也许服用阿司匹林和心脏“改善”都是“更好的生活”或类似的结果。
所以,基本上(因为实际上我们几乎总是想证明 A 是 f B 的结果):如果它是可用/可实现的:更喜欢实验数据。