网状与 Python

数据挖掘 Python r
2021-09-24 18:59:03

我已经非常习惯在 R 中进行编码,尤其是在 RStudio 中。我喜欢那个界面。尽管如此,我还是有一些工作应该在 Python 中完成。我知道如果我使用“reticulate”包,我可以在 RStudio 中运行 Python 代码,并且我编写了一些在两者之间切换的代码。据我所知,我可以从命令行或 Jupyter 在 Python 中运行的任何内容都可以在 RStudio 中使用 reticulate 完成。

与定期运行 Python 相比,我是否应该期望在 R 中使用 Python 命令有更长的运行时间(无论“定期”是什么意思)?

1个回答

实际上,我最近使用两种方法在随机森林拟合上对此进行了测试:

  1. 使用 Jupyter 笔记本来拟合我的模型python,这些数据在同一个笔记本中也使用python.

与:

  1. 在 rstudio 笔记本中使用reticulate以适应相同的模型,但使用我在同一个笔记本中python整理的转换数据集。r

我做了以下观察:

  1. Nativepython 更快,在我的基准测试中,它在我的 16GB Ram 笔记本电脑上安装模型的速度快了约 1 分钟(9 对 10 分钟)。

  2. 此外,您会浪费一些时间在两种语言之间转换对象,尤其是当我们谈论更大的数据集时。

结论

在大多数情况下r,不需要先将对象保存到 CSV,然后打开 jupyter 或python命令行来完成工作,这要归功于reticulate.

如果您做重复或时间紧迫的工作,请尝试在本地使用 python,但其他reticulate方面特别好,如果像我一样,您可以节省大量时间在r.