实际上,本福德定律是一种非常强大的方法。这是因为第一位数字的 Benford 频率分布适用于现实或自然世界中出现的各种数据集。
你是对的,你只能在某些情况下使用本福德定律。你说数据必须有一个统一的日志分布。从技术上讲,这是绝对正确的。但是,您可以用更简单和宽松的方式描述需求。您所需要的只是数据集范围至少跨越一个数量级。比方说从 1 到 9 或 10 到 99 或 100 到 999。如果它超过两个数量级,你就在做生意。而且,本福德定律应该很有帮助。
本福德定律的美妙之处在于它可以帮助您快速缩小调查范围,在海量数据中找到针尖。您寻找异常,其中第一位数字的频率与本福德频率有很大不同。一旦你注意到有两个很多 6,你就可以使用本福德定律只关注 6;但是,您现在将其带到前两位数(60、61、62、63 等...)。现在,也许你发现 63 比 Benford 建议的要多得多(你可以通过计算 Benford 的频率来做到这一点:log(1+1/63),它给你一个接近 0% 的值)。因此,您使用 Benford 到前三位数。当您发现 632(或通过计算 Benford 的频率:log (1+1/632))比预期的要多时,您可能正在做某事。并非所有异常都是欺诈。但,
如果 Marc Hauser 操作的数据集是相关范围足够宽的自然无约束数据,那么本福德定律将是一个非常好的诊断工具。我相信还有其他很好的诊断工具也可以检测出不太可能的模式,并且通过将它们与本福德定律结合起来,您很可能已经有效地调查了马克豪瑟事件(考虑到本福德定律的上述数据要求)。
我在这个简短的演示文稿中更多地解释了本福德定律,您可以在这里看到:
http ://www.slideshare.net/gaetanlion/benfords-law-4669483