机器算法验证 - 20号是不是很神奇？ - 吾爱随笔录

20号是不是很神奇？

机器算法验证样本量

2022-02-28 23:49:28

我有参考建议考虑数据拟合分布的最小样本量为 20。

这有什么意义吗？

谢谢

4个回答

这在很大程度上取决于预期的分布以及您的研究问题是什么。作为一个经验法则，你应该警惕经验法则。如果您知道预期分布，请运行一些不同大小的模拟，并确定样本模拟反映实际分布的频率。这应该为您提供一些指导，作为最终所需的样本量。

我认为样本大小的幻数是 1,000。这是大多数美国国家民意调查所具有的，产生大约 3% 的误差幅度：实际上，有效样本量较小超过 1000 个，更接近 700 个左右，由于选择和不响应调整的概率不等，导致 3.7% 的误差幅度。

z_{0.975} \sqrt{0.5 \cdot 0.5 / 1000} = 1.96 \cdot 0.158 = 0.031

$z_{0.975}\sqrt{0.5\cdot0.5/1000} = 1.96 \cdot 0.158 = 0.031$

只有 20 个观察值，从技术上讲，您无法获得非常高的偏度和峰度值（当然，通过样本标准差进行归一化）：

| skewness | \leq \frac{n - 2}{\sqrt{n - 1}} = 4.58, | kurtosis | \leq \frac{n^{2} - 3 n + 3}{n - 1} = 18.05.

$|\mbox{skewness}| \le \frac{n-2}{\sqrt{n-1}} = 4.58, |\mbox{kurtosis}| \le \frac{n^2 - 3n + 3}{n-1} = 18.05.$ 如果您通过矩法拟合分布，您显然无法拟合具有合理典型对数方差等于 1 的对数正态分布（中高收入不平等国家的收入分布；美国、巴西、南非、俄罗斯都有更高的对数收入方差），因为它的峰度惊人地大，达到 111。当然，用矩方法拟合对数正态分布是愚蠢的，但我只是想证明一些现实世界的分布会可能比 20 次观察所能描述的更复杂。

分布拟合的另一种观点可以通过核密度估计得到：对于大小为的样本，最流行的规则给出的带宽为使用高斯核有效地跨越整个分布。换句话说，如果您对它们进行核密度估计，大多数大小为 20 的样本看起来都是正常的，除非它们明显具有明显的峰度（这意味着有一些异常的观察结果将显示为核密度上的单独凸起阴谋）。 $n=20$

h = 1.06 \hat{σ} n^{- 1 / 5} = 0.58 \hat{σ}

$h=1.06 \hat\sigma n^{-1/5}=0.58\hat\sigma$

没有。不是远程。

可以这样想：如果你有一个十亿维空间（人类），你用任何方法（20 个人）抽取 20 个样本，你能用获得的信息来合理地理解地球上的每个人吗？不是远程。银河系中有1000亿颗恒星。通过选择（随机）其中的 20 个，你能理解所有的银河天文学吗？没门。

在一维空间中，有一些启发式方法，主要是有效的经验法则，可以提供帮助，描述您想要进行多少次测量。它们包括不同程度的效用和正当性，但在某种意义上比“20”更有说服力。它们包括“拟合方程中每个变量的 5 个测量值”、“至少 35 个高斯密度函数样本”和“至少 300 个二项式函数样本”。真正的统计学家，而不是像我这样的书呆子轰炸机，将能够在没有计算器的情况下将特定的置信区间和来自第一原理的不确定性联系起来。

如果您使用“拟合方程中每个参数 5 次测量”的规则，并且您想根据高度分布拟合二维弯曲双三次曲面的累积密度，您将拥有一个底层系统，即，五阶多项式与三次的比率。它将有 6+4=10 个系数。如果您尝试使用每个参数 2 次测量或使用 20 次测量来拟合 10 个参数值，那么您将违反此启发式方法。此启发式建议至少进行 10*5=50 次测量。 $\int {\int {\frac {a_3{r^3}+a_2{r^2}+a_1r+a_0}{a_1r+a_0}}} dr$

请记住，“最好”是一个没有“衡量标准”的毫无意义的想法。最好的路径是什么？如果你要去你的厄运，也许是一个非常漫长和愉快的。如果你要去参加自己的加冕典礼，也许是一场简短而宏伟的加冕典礼。如果你在沙漠中漫步，那是一个凉爽的阴凉处。“最佳”样本数是多少？它是如此惊人地依赖于你的问题，以至于在此之前它无法开始用权威来回答。他们都是？尽可能多？这些只是有点道理。是的，这就像部分死亡或怀孕。部分荒谬是一个非常未定义的问题的结果。

如果您想准确预测飞机上的气流？您可能需要数百万次测量才能进入球场。如果你想知道自己有多高，一两个人就可以完成这项工作。

这并没有提出“跨越空间”和“在使参数估计的方差最小化的位置进行采样”的重点，但该问题表明一个更新生级别的答案将是相关的。这些事情需要更多地了解问题的性质，然后才能实施。

注意：根据建议进行了编辑以改进。

也许对于您正在执行 t 检验或 ANOVAR 的上下文（基本统计应用程序中非常常见的上下文），它围绕每个组所需的样本量，以便能够对每个组的平均值大约有信心正态分布（根据中心极限定理），当可以假设分布或多或少是单峰且不是非常尖峰时。二十而不是十九或二十一，因为它是一个整数。

其它你可能感兴趣的问题

上一篇哪些描述性统计数据不是效应量？下一篇用于预测连续响应变量符号的分类与回归