大数据时代的统计是否不如过去重要?

机器算法验证 推理 大数据
2022-03-28 02:48:39

统计推断或推论统计可能是统计学中最重要的主题,也可能是关于统计学本身的。

从历史上看,由于与总体相比,样本量有限,因此开发了统计推断来处理不确定性。对于大样本,我们不会受到这种不确定性的影响;随着样本量变得非常大,统计显着性变得无限高,甚至可以以几乎 100 的确定性检测到很小的影响。但统计意义并不一定意味着结果在现实世界的重要性意义上具有实际意义。尽管发现存在影响或差异,但在您的研究领域中可能会被忽略。所以,现在重要的是实际意义,这方面的统计不能告诉你任何事情。

所以我个人预计,至少在大数据集可用的那些领域,各种统计方法的效用最终可能会下降。我想知道您是否不同意这个想法,以及您是否同意您为什么这么认为。

3个回答

我希望这个问题不会因为“基于意见”而被关闭,因为即使是这样,我认为它也非常相关。

在我看来,有几个问题需要考虑。一是统计“显着性”问题。它通常(错误地)用作决策工具,至少在我工作的领域(医学)中,尽管它完全不适合那个目的。人们可能希望大数据设置中“显着”结果的膨胀会导致研究人员修改他们对“显着性”含义的看法,并引导他们找到更好的决策工具,例如成本/收益计算。

另一方面,大数据允许我们在同一个数据集上测试大量假设。在“经典”统计中,对于“小”数据,显着性水平的必要修正(Bonferroni 等)很快会导致我们错过实际存在的效果的情况。在这种情况下,大数据实际上可以支持经典的统计方法。

值得考虑的另一点是概率模型的重要性。所有统计方法都基于一些关于(不可观察!)观察数据背后的模型的假设。这些模型至少与我们做数学的能力一样多,就像我们对数据的领域知识一样。事实上,根据我的经验,我们选择模型的主要依据是我们对它的熟悉程度或软件的可用性,而不是考虑数据是如何形成的。大数据可能使我们能够进行无模型(或无模型)数据分析,并获得实际上更有用甚至更准确的结果。所以,在这方面,我倾向于支持你的论点。

总而言之,我认为你的论文有利有弊。大数据和机器学习方法可能会补充,但不会完全取代经典统计。计算机及其数值能力并没有让分析过时,摄影也没有让绘画消失。

大数据已经证明了自己,并且可能使用很少依赖“统计”的方法(很少依赖关于错误和噪声的考虑),但是

  1. 大数据是否会取代一切尚不清楚。

    我们是否将拥有如此丰富的资源(测量和计算),以便能够将每个空间都装满数千个传感器来收集大量数据,以解决可以简单地用极简方法解决的问题?

  2. 可能会怀疑大数据的可扩展性以及它是否能够(以简单的方式,以非高级的方式)处理噪声和随机变化。大数据与小数据真的有那么大的区别吗?

    如果由于信噪比太低而导致无法解决问题的不良数据......可以通过收集更多数据来解决吗?也许在某些情况下可以做到,但它会是最有效的吗?

    大数据的分析方法可能非常强大,但模型和数据收集过程的基本假设呢?我们可以通过取简单的平均值(或一些以更流畅的方式执行此操作的神经网络)来获得极高的精度,但如果存在一些系统误差,那么结果仍然可能完全错误(想想可以被欺骗的图像识别) )。这些类型的错误仍然需要使用处理小数据的“经典”统计方法进行评估。

此外,也许关于“经典统计”被“大数据”取代的问题是一个加载的问题,它勾勒出一种错误的二分法首先将这两者视为无关或不同是错误的。

一件事还没有提到,我认为这很重要,即使有大数据甚至整个人口的数据,你仍然需要统计推断。

原因是您根本无法直接观察数据生成过程(DGP)以及真正的模型是什么。

例如,如今在某些国家,您可以获得有关“整体人口”的数据。您可能可以访问某个国家/地区的所有销售的所有匿名人口数据的税收记录(如果您的研究人口是所有有应税收入的人)等。事实上,即使在大数据革命之前,您就可以掌握世界上几乎所有国家的 GDP、通货膨胀、利率等总量。如果对于仅适用于欧洲国家的特定研究,您将您的人口定义为欧洲国家,您将拥有大量来源,可为您提供整个人口的可靠宏观经济数据,而不仅仅是样本。

但是,您甚至可以访问整个人口的如此丰富的数据这一事实是否意味着您可以省去推论统计?好吧,不,因为即使您拥有人口中每个人的数据,您仍然不知道基础数据生成过程是什么。例如,如果 GDP 和消费之间的真实关系是:

Y=β0+β1C+u

在哪里u不是一个错误,而是一个干扰项,那么当您从上述生成过程中提取时,仍然会有一些噪音,这将导致无法计算真实的总体β0β1直接地。

另一种思考方式是,在这种情况下,真正的人口不仅仅是您可以在现实世界中观察到的人口,而且还包括如果您可以从数据生成过程中观察到无限抽取而存在的所有假设人口。例如,您可能能够观察到 2014 年所有欧洲国家的 GDP 和消费量 - 但如果这些观察结果依赖于具有随机干扰的真实关系,您不知道观察结果是否相同,如果您能够把时间倒回到2014年之前,让2014年再次上演。

因此,即使您可以收集所有欧洲国家的数据,并且您的研究应该只针对欧洲,因此可以将您的人口定义为所有欧洲国家,您仍然应该考虑所有欧洲国家的数据如果关系中的随机性会有所不同,则特定年份只是所有数据的样本。