“大数据”在媒体中无处不在。每个人都说“大数据”是 2012 年的大事,例如KDNuggets 对 2012 年热门话题的投票。但是,我对此深感担忧。有了大数据,每个人似乎都乐于得到任何东西。但是我们不是违反了所有经典的统计原则,例如假设检验和代表性抽样吗?
只要我们只对同一数据集进行预测,这应该没问题。因此,如果我使用 Twitter 数据来预测 Twitter 用户行为,那可能没问题。然而,使用 Twitter 数据来预测例如选举完全忽略了 Twitter 用户不是整个人口的代表性样本这一事实。另外,大多数方法实际上无法区分真正的“草根”情绪和运动。推特上到处都是竞选活动。因此,在分析 Twitter 时,您很快就只能衡量竞选活动和机器人。(例如,参见“雅虎预测美国的政治赢家”这充满了民意调查和“情绪分析要好得多”。他们预测“罗姆尼赢得提名和赢得南卡罗来纳州初选的可能性超过 90%”(他有 28%,而金里奇在初选中有 40%)。
你知道其他这样的大数据失败了吗?我大致记得一位科学家预测你不能维持超过 150 条友谊。他居然只在friendster里发现了一个上限……
至于 twitter 数据,或者实际上是从网络上收集的任何“大数据”,我相信人们通常会通过收集数据的方式引入额外的偏见。很少有人会拥有所有的 Twitter。他们将有一个他们蜘蛛的某个子集,这只是他们数据集中的另一个偏差。
将数据拆分为测试集或进行交叉验证可能没有多大帮助。另一组将具有相同的偏差。对于大数据,我需要大量“压缩”我的信息,以至于我不太可能过度拟合。
我最近听到这个笑话,大数据科学家发现世界上大约有 6 种性别......我可以想象会发生这种情况......“男性,女性,兽人,毛茸茸,是和否”。
那么我们有什么方法可以让一些统计有效性回到分析中,特别是在试图预测“大数据”数据集之外的东西时?