或者更“会”?大数据使统计和相关知识变得更加重要,但似乎低估了抽样理论。
我看到了围绕“大数据”的炒作,不禁想知道“为什么”我要分析所有内容?难道没有理由设计/实施/发明/发现“抽样理论”吗?我不明白分析数据集的整个“人口”的意义。仅仅因为你能做到并不意味着你应该(愚蠢是一种特权,但你不应该滥用它:)
所以我的问题是:分析整个数据集在统计上是否相关?如果您进行采样,您能做的最好的事情就是尽量减少错误。但是,最小化该错误的成本真的值得吗?“信息的价值”真的值得在大规模并行计算机上分析大数据所付出的努力、时间成本等吗?
即使分析整个人群,结果充其量也只是一个正确概率较高的猜测。可能比抽样高一点(或者会更多?)从分析总体与分析样本中获得的洞察力是否会有很大差异?
还是我们应该接受它作为“时代变了”?考虑到足够的计算能力,采样作为一项活动可能变得不那么重要:)
注意:我不是想开始辩论,而是寻找答案来理解为什么大数据会做它所做的事情(即分析一切)并无视抽样理论(或者它没有?)