机器算法验证 - 要放入表格中的有效数字的数量？ - 吾爱随笔录

要放入表格中的有效数字的数量？

机器算法验证表

2022-03-10 04:29:09

对于要发布的有效数字的数量，是否有一个有根据的规则？

以下是一些具体的例子/问题：

有没有办法将有效数字的数量与变异系数联系起来？例如，如果估计值为 12.3，CV 为 50%，这是否意味着 '.3' 表示的信息接近于零？
如果置信区间有一个数量级的范围，它们是否仍然具有相同数量的有效数字，例如：

12.3 (1.2, 123.4) 与 12 (1.2, 120)
误差估计中的有效数字的数量应该与平均值中的有效数字的数量相同还是更少？

2个回答

我怀疑有一个普遍的规则，所以我不会编造任何东西。我可以分享这些想法及其背后的原因：

当摘要反映数据本身时——最大值、最小值、顺序统计等——使用相同数量的有效数字来记录数据。这在整个文档中提供了关于数据精度的一致表示。
当摘要的精度高于数据时，以反映额外精度的方式写入值。例如，一个平均值 $n$ 价值观有 $\sqrt{n}$ 乘以单个值的精度：粗略地，包括一个额外的有效数字 $3 \le n \le 30$ ，两个为 $30 \lt n \le 300$ 等（显然，这是在对数 10 范围内四舍五入的。）

- 请注意，简历没有提供这方面的有用信息。

- 一些估计可以非常精确地获得。他们不必四舍五入来匹配其他东西。例如，1,000,000 个整数的平均值可能为 10.977，标准误差为 0.00301。我决定将平均值写到小数点后三位（和 4-5 sig figs）是基于 SE 的数量级，这表明最后一位数字是部分可靠的。将 SE 写入三个 sig fig（小数点后五位）的决定更加随意：两个 sig fig 可以；一个可能不会；四个 sig figs 也可以工作，并且与 4-5 sig figs 的平均值一致；超过四个 sig fig 将是矫枉过正。（可以根据数据的四阶矩来估计 SE 本身的标准误差，并用它来确定适当的舍入量，但我们大多数人都不会那么麻烦......）
在进行大量舍入时向读者发出信号。 当报告讨论统计检验本身时要特别小心。原因是人们可能会使用您的工作来检查他们自己的计算。有时，即使是细微的差别也能揭示错误。您不想因为您将 123 舍入到 120 而造成麻烦，而其他人在检查工作时得到 123 并怀疑你们中的一个人犯了错误。
保持一致。如果您一次将一个值列为 123，然后将其引用为 120，您可能会失去一些读者。
不要荒谬。（例如，当数据只有两个 sig figs 时，当我遇到将统计结果提供给 15 sig figs 的报告时，我会自动怀疑无能。）

我建议 12 (1.2, 123.4)。省略 0.3，因为它几乎没有意义，但很多人看到 (1.2, 120) 时会认为 120 中的最后一个“0”很重要。

其它你可能感兴趣的问题

上一篇如何用英语报告 Cox 比例风险模型的风险比？下一篇统计/机器学习中“偏差”一词的不同用法