自从我做任何统计数据(或任何严肃的数学)以来已经有很多年了,但我确实记得,对于较大的样本量(例如 n^-1/2,至少对于某些统计数据),抽样误差下降得更慢。
我还记得(从数值分析中)对于建模为线性 ODE 的过程,常数系数或初始条件的误差随时间呈指数增长(至少对非线性过程同样糟糕),即进一步减少初始条件误差只会让我们受益随着时间的推移,预测精度呈对数增长。
虽然关于大数据和偏差误差已经谈了很多,但有一点是肯定的:无论您已经收集到什么数据(以及它可能包含的任何偏差),您都可以对其进行随机抽样,而不会引入额外的偏差误差。简而言之:如果您可以存储它 - 您可以对其进行采样(无偏见)。
鉴于这些(当然,我可能是错的),我们收集的任何额外样本似乎在统计和预测方面的回报都在递减(而且好处会迅速减少)。看来,即使存储和分析大数据相对便宜,它仍然不划算。我们得到的大量数据几乎没有为我们带来任何额外的知识:额外的统计准确性非常少,偏差也不少,而且几乎没有增加预测能力[1]。那么,大数据的好处是什么?
(这个问题最不重复“大数据时代的采样是否相关?”,无论如何,该问题的答案不能回答我的问题)
[1] 最后一点——预测能力——似乎是最相关的,因为这就是大数据的许多商业用途。但是用户行为一直在变化——可能有一些复杂的反馈,并且可能是非线性的——所以无论我们得到什么额外的精度,比如 n^-1/2,当涉及到预测时,这个微薄的增益就会变成对数。事实上,可以说,为了获得更好的预测,最好减少计算统计数据(通过抽样)所花费的时间,而不是通过增加样本量来提高精度,因为时间对“知识”有指数效应,而样本量仅具有多项式效应。