机器算法验证 - 随机数生成在计算统计中有哪些重要用途？ - 吾爱随笔录

随机数生成在计算统计中有哪些重要用途？

机器算法验证假设检验蒙特卡洛算法随机生成计算统计

2022-02-16 09:58:54

随机数生成器 (RNG) 在计算统计中如何以及为何如此重要？

我知道在为许多统计测试选择样本以避免偏向任一假设时，随机性很重要，但是在计算统计的其他领域中随机数生成器是否很重要？

2个回答

有很多很多例子。太多了，无法列出，而且任何人都可能无法完全了解（可能除了@whuber，他永远不应被低估）。

正如你提到的，在对照实验中，我们通过将受试者随机分成治疗组和对照组来避免抽样偏差。

在bootstrapping中，我们通过从固定样本中随机抽样和替换来近似从总体中重复抽样。这让我们可以估计我们估计的方差，等等。

在交叉验证中，我们通过将数据随机划分为切片并组装随机训练和测试集来估计估计的样本外误差。

在置换检验中，我们使用随机置换在原假设下进行抽样，从而允许在各种情况下执行非参数假设检验。

在bagging中，我们通过对训练数据的引导样本重复执行估计，然后对结果进行平均来控制估计的方差。

在随机森林中，我们还通过在每个决策点从可用预测变量中随机抽样来进一步控制估计的方差。

在模拟中，我们要求拟合模型随机生成新的数据集，我们可以将其与训练或测试数据进行比较，帮助验证模型中的拟合和假设。

在马尔可夫链蒙特卡洛中，我们通过使用马尔可夫链探索可能结果的空间来从分布中采样（感谢@Ben Bolker 的这个例子）。

这些只是立即浮现在脑海中的常见日常应用。如果我深入挖掘，我可能会将该列表的长度加倍。随机性既是一个重要的研究对象，也是一个重要的工具。

这一切都是正确的，但并没有解决主要问题：具有任何 结果结构或序列可预测性的 PRNG 将 导致模拟失败。 卡尔·维特霍夫1 月 31 日 15:51

如果这是您关心的问题，那么问题的标题可能应该更改为“RNG 选择对蒙特卡洛结果的影响”或类似的内容。在这种情况下，已经考虑过 SE 交叉验证，这里有一些方向

如果您正在考虑设计不良的 RNG，例如臭名昭著的 RANDU，它们显然会对蒙特卡洛近似产生负面影响。为了发现 RNG 的缺陷，有很多基准测试，比如 Marsaglia 的Diehard 测试。（例如，Park & Miller (1988)发现缺少使用具有因子 16807 的 Lehmer 同余生成器，将其替换为 47271 或 69621。当然，这已被Mersenne Twister PRNG等大型周期生成器所取代。）
一个关于数学的 SE 问题提供了一个关于估计和精度的影响（或缺乏影响）的链接，如果不是一个非常有用的答案的话。
Jeff Rosenthal（多伦多大学）有一篇论文，他研究了 RNG 对（蒙特卡洛）马尔可夫链收敛的影响，但我找不到它。我最近在我的博客上进行了一个小型实验，没有明显的 RNG 类型影响。
- 顺便说一句，安大略省的一个彩票计划使用了设计不佳的随机生成，加拿大多伦多的一位统计学家 Mohan Srivastava 发现了这一问题，他将此问题通知了安大略彩票和博彩公司，而不是从中获得巨额利润漏洞。
这是一个经典网络模拟器受到不良默认选择影响的示例（链接到上面的 Park 和 Miller）。
并行计算中使用的 RNG 结构存在特定问题。使用多个种子通常不够好，尤其是对于线性同余生成器。在计算机文献中可以找到许多方法，包括 Michael Mascagni 的可扩展并行随机数生成 (SPRNG) 包（包括 R 版本）和Matsumoto 的动态创建器，这是一个 C 程序，在使用 Mersenne twister 时为独立流提供起始值. 这也已在SE 堆栈溢出中得到解决。
去年，我看到了Paula Whitlock关于 GNU 科学图书馆对高维随机游走收敛的影响的演讲，但不能。
最后顺便说一句，还有一些关于软件和硬件 RNG 之间区别的文献，声称通灵可以影响后者！

其它你可能感兴趣的问题

上一篇为什么 0-1 损失函数难以处理？下一篇随机森林回归之前的 PCA 为我的数据集提供了比随机森林回归更好的预测分数，如何解释它？