什么是数据科学的良好随机化环境?

数据挖掘 Python scikit-学习 麻木的 scipy
2022-03-02 12:31:10

我想知道是否有优化随机环境的最佳实践。目前我在我的配置中使用这个简单的结构:

from numpy.random import Generator, PCG64
rng = Generator(PCG64(42))
np.random.seed(42)

我将rng生成器用于所有一般目的(按照特定分布绘制、索引排列、合成数据点等),并使用 legacy为生成器方法np.random.seed设置 scipy 的随机状态rvsscipy.stats

我在 sklearn 文档(此处的警告部分)的某处读到该sklearn.model_selection模块使用相同的全局种子,全局种子集np.random.seed不是吗?

如果您对 scipy 和 sklearn 如何引用全局种子以及什么是良好的默认随机化设置有更好的了解,那将非常有用。谢谢

0个回答
没有发现任何回复~