数据挖掘 - 什么是数据科学的良好随机化环境？ - 吾爱随笔录

我想知道是否有优化随机环境的最佳实践。目前我在我的配置中使用这个简单的结构：

from numpy.random import Generator, PCG64
rng = Generator(PCG64(42))
np.random.seed(42)

我将rng生成器用于所有一般目的（按照特定分布绘制、索引排列、合成数据点等），并使用 legacy为生成器方法np.random.seed设置 scipy 的随机状态。rvsscipy.stats

我在 sklearn 文档（此处的警告部分）的某处读到该sklearn.model_selection模块使用相同的全局种子，全局种子集np.random.seed不是吗？

如果您对 scipy 和 sklearn 如何引用全局种子以及什么是良好的默认随机化设置有更好的了解，那将非常有用。谢谢