如何从“大数据”中得出有效结论?

机器算法验证 数据挖掘 数据集 大数据 验证
2022-01-22 15:31:38

“大数据”在媒体中无处不在。每个人都说“大数据”是 2012 年的大事,例如KDNuggets 对 2012 年热门话题的投票但是,我对此深感担忧。有了大数据,每个人似乎都乐于得到任何东西但是我们不是违反了所有经典的统计原则,例如假设检验和代表性抽样吗?

只要我们只对同一数据集进行预测,这应该没问题。因此,如果我使用 Twitter 数据来预测 Twitter 用户行为,那可能没问题。然而,使用 Twitter 数据来预测例如选举完全忽略了 Twitter 用户不是整个人口的代表性样本这一事实。另外,大多数方法实际上无法区分真正的“草根”情绪和运动。推特上到处都是竞选活动。因此,在分析 Twitter 时,您很快就只能衡量竞选活动和机器人。(例如,参见“雅虎预测美国的政治赢家”这充满了民意调查和“情绪分析要好得多”。他们预测“罗姆尼赢得提名和赢得南卡罗来纳州初选的可能性超过 90%”(他有 28%,而金里奇在初选中有 40%)。

你知道其他这样的大数据失败了吗?我大致记得一位科学家预测你不能维持超过 150 条友谊。他居然只在friendster里发现了一个上限……

至于 twitter 数据,或者实际上是从网络上收集的任何“大数据”,我相信人们通常会通过收集数据的方式引入额外的偏见。很少有人会拥有所有的 Twitter。他们将有一个他们蜘蛛的某个子集,这只是他们数据集中的另一个偏差。

将数据拆分为测试集或进行交叉验证可能没有多大帮助。另一组将具有相同的偏差。对于大数据,我需要大量“压缩”我的信息,以至于我不太可能过度拟合。

我最近听到这个笑话,大数据科学家发现世界上大约有 6 种性别......我可以想象会发生这种情况......“男性,女性,兽人,毛茸茸,是和否”。

那么我们有什么方法可以让一些统计有效性回到分析中,特别是在试图预测“大数据”数据集之外的东西时?

2个回答

你的恐惧是有根据的和敏锐的。雅虎和可能还有其他几家公司正在对用户进行随机实验,并且做得很好。但是观测数据充满了困难。一个普遍的误解是,随着样本量的增加,问题会减少。这对于方差来说是正确的,但随着 n 的增加,偏差保持不变。当偏差很大时,一个非常小的真正随机样本或随机研究可能比 100,000,000 次观察更有价值。

实验设计和分析中有许多技术可以帮助您减少偏见,但这又总是归结为同一件事:必须知道自己在做什么。大数据分析与任何其他数据分析存在相同的问题;它缺乏假设。

一个明显的例子是具有逐步变量选择的多元回归。非常好,有人说,但是用 100 个变量测量的统计规律表明,当通过查看各个系数是否与零显着不同来评估时,其中一些变量将显示出显着的关系。因此,数据集中的变量越多,找到显示某种(无意义)关系的两个变量的机会就越大。你的数据集越大,由于混杂效应小的原因,产生无意义模型的机会就越大。如果您测试许多模型(即使只有 10 个变量也可能是很多模型),您很可能会找到至少一个显着的变量。这是否意味着什么?不。

那应该怎么办呢?用你的大脑:

  • 在收集数据之前制定假设并检验该假设。这是确保您的统计数据真正讲述故事的唯一方法。
  • 在进行一些测试之前,使用您的协变量对抽样进行分层。愚蠢的例子:如果你的数据集中有 1000 名男性和 100 名女性,如果你想谈论平均人口,随机选择 50 人。这实际上是大数据派上用场的地方:您有足够多的样本可供选择。
  • 彻底描述测试人群,以便清楚您的结论是针对哪个人群制定的。
  • 如果您将大数据集用于探索目的,请在不同数据集上测试您在探索过程中提出的假设,而不仅仅是您收集的数据的子集。并使用所有必要的预防措施再次测试它们。

这些都是显而易见的,众所周知的。哎呀,早在 1984 年,Rosenbaum 和 Rubin就说明了如何使用倾向得分来减少观察性研究中的偏差,这就是大多数大型数据集:观察性数据。在Feng 等人最近的工作中,还提倡使用马氏距离。事实上,我的一位统计英雄科克伦早在 1973 年就写了一篇关于这个问题的评论!或者鲁宾呢,他在 1979 年就引入了多元匹配抽样和回归校正。旧的出版物被严重低估并且经常被忽视,尤其是在统计学等领域。

所有这些技术都有利有弊,人们必须了解减少偏见与消除偏见不同。但是,如果您知道:

  • 你想测试什么,和
  • 你是怎么做的

大数据不是提供虚假结果的借口。


在@DW 的(正确)评论之后编辑,他指出我在错误的上下文中使用了“过度拟合”一词。