机器算法验证 - 何为大数据？ - 吾爱随笔录

自从我做任何统计数据（或任何严肃的数学）以来已经有很多年了，但我确实记得，对于较大的样本量（例如 n^-1/2，至少对于某些统计数据），抽样误差下降得更慢。
我还记得（从数值分析中）对于建模为线性 ODE 的过程，常数系数或初始条件的误差随时间呈指数增长（至少对非线性过程同样糟糕），即进一步减少初始条件误差只会让我们受益随着时间的推移，预测精度呈对数增长。
虽然关于大数据和偏差误差已经谈了很多，但有一点是肯定的：无论您已经收集到什么数据（以及它可能包含的任何偏差），您都可以对其进行随机抽样，而不会引入额外的偏差误差。简而言之：如果您可以存储它 - 您可以对其进行采样（无偏见）。

鉴于这些（当然，我可能是错的），我们收集的任何额外样本似乎在统计和预测方面的回报都在递减（而且好处会迅速减少）。看来，即使存储和分析大数据相对便宜，它仍然不划算。我们得到的大量数据几乎没有为我们带来任何额外的知识：额外的统计准确性非常少，偏差也不少，而且几乎没有增加预测能力[1]。那么，大数据的好处是什么？

（这个问题最不重复“大数据时代的采样是否相关？”，无论如何，该问题的答案不能回答我的问题）

[1] 最后一点——预测能力——似乎是最相关的，因为这就是大数据的许多商业用途。但是用户行为一直在变化——可能有一些复杂的反馈，并且可能是非线性的——所以无论我们得到什么额外的精度，比如 n^-1/2，当涉及到预测时，这个微薄的增益就会变成对数。事实上，可以说，为了获得更好的预测，最好减少计算统计数据（通过抽样）所花费的时间，而不是通过增加样本量来提高精度，因为时间对“知识”有指数效应，而样本量仅具有多项式效应。