哪个计算更快:R 还是 Python?

数据挖掘 Python r 数据插补
2022-03-05 10:25:50

我有一个相当大的数据集(大约 40k 行,40 列),其中包含许多 NA(每个变量最多 40%)。到目前为止,我所有的工作都是在 R 中完成的,但我知道 R(我被告知它只在一个内核上运行)将无法以任何类型的可观的周转时间来估算数据,尤其是在我的笔记本电脑。

虽然我正在寻找更强大的云计算来提供帮助,但我想知道 Python 是否可以提供更好的插补时间(大概它可以在多个核心上运行)。

我还在决定算法——可能是 Cart、KNN 或 Forest。是调查数据。

1个回答

我建议你使用 Python。使用 sklearn,您可以通过多种方式对数据执行多核算法。使用 Python 的另一个原因:如果你想执行分布式计算,你有很多模块,比如 DASK,它们非常易于使用,并且可以在不同的机器上自动调度任务,而无需花费数小时编写多线程算法。

40k 行,40 列对 python 来说不是什么大问题,但我认为“R”应该能够处理这个问题,它是一种非常流行的统计算法语言。也许有些设置是错误的......

短的:

  • 安装 Python(或更好的 Anaconda)
  • 在 Sklearn-site 你会找到一些演示代码
  • 用你的数据集试试
  • 也许您可以对其进行基准测试:)