何为大数据?

机器算法验证 大数据
2022-03-29 04:20:52
  • 自从我做任何统计数据(或任何严肃的数学)以来已经有很多年了,但我确实记得,对于较大的样本量(例如 n^-1/2,至少对于某些统计数据),抽样误差下降得更慢。

  • 我还记得(从数值分析中)对于建模为线性 ODE 的过程,常数系数或初始条件的误差随时间呈指数增长(至少对非线性过程同样糟糕),即进一步减少初始条件误差只会让我们受益随着时间的推移,预测精度呈对数增长。

  • 虽然关于大数据和偏差误差已经谈了很多,但有一点是肯定的:无论您已经收集到什么数据(以及它可能包含的任何偏差),您都可以对其进行随机抽样,而不会引入额外的偏差误差。简而言之:如果您可以存储它 - 您可以对其进行采样(无偏见)。

鉴于这些(当然,我可能是错的),我们收集的任何额外样本似乎在统计和预测方面的回报都在递减(而且好处会迅速减少)。看来,即使存储和分析大数据相对便宜,它仍然不划算。我们得到的大量数据几乎没有为我们带来任何额外的知识:额外的统计准确性非常少,偏差也不少,而且几乎没有增加预测能力[1]。那么,大数据的好处是什么?

(这个问题最不重复“大数据时代的采样是否相关?”,无论如何,该问题的答案不能回答我的问题)

[1] 最后一点——预测能力——似乎是最相关的,因为这就是大数据的许多商业用途。但是用户行为一直在变化——可能有一些复杂的反馈,并且可能是非线性的——所以无论我们得到什么额外的精度,比如 n^-1/2,当涉及到预测时,这个微薄的增益就会变成对数。事实上,可以说,为了获得更好的预测,最好减少计算统计数据(通过抽样)所花费的时间,而不是通过增加样本量来提高精度,因为时间对“知识”有指数效应,而样本量仅具有多项式效应。

1个回答

不仅数据大,问题也大。

实际上,如果您计算的是 TB 数据的平均值,那么增加采样大小的好处并不大。只是没有人对平均值的第 10 位感兴趣......

通常情况下,大数据问题更像是需要一次性解决的大量问题。您拥有数百万用户,数以千计的产品。它们每个的样本量都不是大数据,但你有很多......同样,在图像识别中,你有很多像素,很多标签(imagenet 有大约 20000 个类别左右),所以更多通常情况下,您甚至没有一个非常相似的训练示例...

在搜索大量假设时,您还需要针对多个测试问题进行调整。假设您正在测试具有确定性的问题。但是你只测试了 100 个假设,那么你最终只能确定,结果是真的正确。这种信心迅速下降——在 1000 次测试中,有 2 分之二的机会出现误报。一个(至少理论上的)出路是在单个测试,例如但是你可能需要获得更大的样本才能达到这样的信心......α=0.999α¯=0.90αα=0.99999