数据挖掘 - 哪个计算更快：R 还是 Python？ - 吾爱随笔录

数据挖掘 Python r 数据插补

2022-03-05 10:25:50

我有一个相当大的数据集（大约 40k 行，40 列），其中包含许多 NA（每个变量最多 40%）。到目前为止，我所有的工作都是在 R 中完成的，但我知道 R（我被告知它只在一个内核上运行）将无法以任何类型的可观的周转时间来估算数据，尤其是在我的笔记本电脑。

虽然我正在寻找更强大的云计算来提供帮助，但我想知道 Python 是否可以提供更好的插补时间（大概它可以在多个核心上运行）。

我还在决定算法——可能是 Cart、KNN 或 Forest。是调查数据。

1个回答

我建议你使用 Python。使用 sklearn，您可以通过多种方式对数据执行多核算法。使用 Python 的另一个原因：如果你想执行分布式计算，你有很多模块，比如 DASK，它们非常易于使用，并且可以在不同的机器上自动调度任务，而无需花费数小时编写多线程算法。

40k 行，40 列对 python 来说不是什么大问题，但我认为“R”应该能够处理这个问题，它是一种非常流行的统计算法语言。也许有些设置是错误的......

短的：

其它你可能感兴趣的问题