一件事还没有提到,我认为这很重要,即使有大数据甚至整个人口的数据,你仍然需要统计推断。
原因是您根本无法直接观察数据生成过程(DGP)以及真正的模型是什么。
例如,如今在某些国家,您可以获得有关“整体人口”的数据。您可能可以访问某个国家/地区的所有销售的所有匿名人口数据的税收记录(如果您的研究人口是所有有应税收入的人)等。事实上,即使在大数据革命之前,您就可以掌握世界上几乎所有国家的 GDP、通货膨胀、利率等总量。如果对于仅适用于欧洲国家的特定研究,您将您的人口定义为欧洲国家,您将拥有大量来源,可为您提供整个人口的可靠宏观经济数据,而不仅仅是样本。
但是,您甚至可以访问整个人口的如此丰富的数据这一事实是否意味着您可以省去推论统计?好吧,不,因为即使您拥有人口中每个人的数据,您仍然不知道基础数据生成过程是什么。例如,如果 GDP 和消费之间的真实关系是:
Y=β0+β1C+u
在哪里u不是一个错误,而是一个干扰项,那么当您从上述生成过程中提取时,仍然会有一些噪音,这将导致无法计算真实的总体β0和β1直接地。
另一种思考方式是,在这种情况下,真正的人口不仅仅是您可以在现实世界中观察到的人口,而且还包括如果您可以从数据生成过程中观察到无限抽取而存在的所有假设人口。例如,您可能能够观察到 2014 年所有欧洲国家的 GDP 和消费量 - 但如果这些观察结果依赖于具有随机干扰的真实关系,您不知道观察结果是否相同,如果您能够把时间倒回到2014年之前,让2014年再次上演。
因此,即使您可以收集所有欧洲国家的数据,并且您的研究应该只针对欧洲,因此可以将您的人口定义为所有欧洲国家,您仍然应该考虑所有欧洲国家的数据如果关系中的随机性会有所不同,则特定年份只是所有数据的样本。