实时测试本福德定律

机器算法验证 假设检验 置信区间 多项分布 顺序分析 即时的
2022-03-27 19:56:07

假设我有一定数量的数据X, 由x1,...,xn. 现在,我取第一个数字di每个数量的xi,我想研究第一个数字的经验分布之间的关系p^=(p^1,...,p^n)在哪里pi^是出现的归一化频率i作为第一个数字,本福德定律

pi=log10(1+1/i)
现在,我已经阅读了这篇论文,主题是比较第一位数字的经验频率与本福德定律。但是,他们没有提到他们提到的方法是否可以用于能够以一定的信心实时拒绝本福德定律,其中数据以一定的频率到达(例如,每秒 50 个数据)。

我认为这些方法可以通过以下方式与本福德定律进行实时比较:给定一个(小)时间间隔(比如 3 秒),我们计算第一位数字的经验频率p^=(p^1,...,p^n)然后我们计算同时置信区间和p-我之前提到的参考文献中显示的统计值(我们必须确保至少有 60 个数据的样本量,以便统计的分布应该相对接近渐近分布,所以计算p-值应该是可靠的)。

我的问题是,这是一个有效的程序吗?是否有意义?如果没有,是否有一些可靠的方法可以实时比较经验第一位数字分布与本福德定律?

我看到的一个潜在问题是,第一位数字的基本分布可能会在给定的时间窗口内发生变化(甚至可能不止一次)。这就是为什么我认为使用相对较小的时间窗口是一个好主意,以便获得合适的样本量,同时降低第一位数字的潜在分布可能发生变化的可能性。

1个回答

桑布里奇等人。(2010)概述了一种评估时间序列数据是否符合本福德定律的方法。尽管您的用例有所不同,但它也可能对您有用。

他们的方法与您基本描述的一样工作:将您的数据分组到观察窗口并测试每个窗口的一致性。此方法已被同一作者在其他文章中使用(并发表),因此至少足以通过几次同行评审。

尽管它们有自己的拟合优度度量,但我看不出有什么理由不能使用通常适用于本福德分析的任何度量。您需要确保您的度量对于您选择的窗口或样本大小具有良好的属性。