据我所知,R 和 Python 是两种最流行的数据科学语言。
我的问题是,你会为刚开始从事数据科学的人推荐哪一个?任何一个都有明显的优势吗?哪一种更容易学习,或者哪一种更有潜力?
非常感谢!
据我所知,R 和 Python 是两种最流行的数据科学语言。
我的问题是,你会为刚开始从事数据科学的人推荐哪一个?任何一个都有明显的优势吗?哪一种更容易学习,或者哪一种更有潜力?
非常感谢!
这是一场常年的辩论。毫无疑问,Python 更具可读性和学习速度。另一方面,它也比 R 语言更通用。有一些统计数据可以做到 Python 没有库(尽管我怀疑人们正在研究这个)。
在学习数据科学的早期阶段更重要的是更基础的理论:数学、线性代数、微积分和统计学。与特定语言相比,牢牢掌握这些领域在学习路径中所占的份额要大得多。
话虽如此,由于可读性,我确实更喜欢 Python。事实是,很多时候其他人需要在你之后进来阅读你写的东西。就此而言,您有时必须阅读自己的代码!可读性比使用单行代码完成出色工作的能力更重要。至于高级统计数据,最常在医学领域发挥作用;在那里你肯定会发现 R 优于 Python。
我想我们可能会给你无穷无尽的答案,因为我们每个人都有不同的经历、不同的背景和故事要讲。恕我直言,这个问题本身就有一个严重的问题:为什么选择?你是在锤子和钉子之间选择在墙上放置框架吗?不,因为两者都是工具,如 Python 和 R。显然,你会开始只学习其中一个,但最后,我建议同时学习它们,因为至少在今天,它们是互补的。根据我的经验(科学背景,处理能源和气候数据),Python 在处理大型网格数据集方面非常出色,这要归功于xarray并执行快速计算,另一方面,当我需要“最后一英里”时,我会使用 R,即当我必须处理数据以将其可视化(ggplot2to day 是数据探索和可视化的顶级库)并展示它(该shiny库非常容易学习和有效)。但是,虽然 R 语法可能很丑陋且不一致,但 Python 非常优雅,绝对是一种现代编程语言,当您需要使用 OOP 范式编写大量代码时,它是最佳解决方案。
所以问题是:我应该先学习哪一个?这取决于:你为什么要学习它?你已经有一个项目了吗?如果您仍然没有明确的想法,我建议您参加 Datacamp 的第一门 R 和 Python 课程,然后选择从哪里开始。