对于经济学和金融领域的专业数据科学,我应该更好地掌握什么?

数据挖掘 Python r matlab sql 朱莉娅
2022-03-08 10:25:03

首先,请原谅我可能不属于这里的菜鸟和冗长的问题,我知道有几个问题是这样回答的,但我认为这将是最新的。Stack Overflow 删除了我的问题并将我重定向到这里。

我在本科阶段学习经济学和金融学,老实说,到目前为止,我并不是很喜欢编程。但是,我必须承认,如果没有经济/金融相关领域的特定软件和编程语言,您现在将无法做得很好。

根据我的课程,我遇到过 Matlab、一些计量经济学软件,当然还有 MS Office,尤其是带有 VBA 的 Excel。我脑子里有一些阴暗的框架,如果我错了,请随时纠正我。因此,正如我所经历的,对于数值计算和进行绝大多数数学运算,存在 Matlab、Octave 和 Mathematica。计量经济学方面,有 eViews、STATA、SPSS 等专业软件或开源的 Gretl 和 Tableau 等用于数据可视化的软件。最后,我们可以使用 Excel 来管理数据库。

长话短说,我的基本问题是,这些是完成这项工作的最佳工具吗?或者我应该切换到更专业的工具——比如真正的编程语言——以更好地解决数学问题、数值计算、计量经济学、数据科学和精致、高质量的数据可视化?当今数据科学行业在经济/金融领域最需要的技能是什么?

我听说 R 是近来非常流行的统计编程语言,并且每天都在变得越来越好——我已经在 Rstudio 中编写了一些函数和可视化。我还听说 SQL 也是管理真正海量数据集而不是 Excel 的更好选择,但是 SQL 能够用数据做各种事情,而这些事情可以在 Excel 中完成吗?在我看来,Python 通常是数据分析的第一语言,它灵活且可广泛使用。我发现 Python 库——比如 matplotlib、numpy、pandas、bokeh——非常有吸引力。那么 Julia 呢,这会是未来的下一个 R 吗?老实说,我也对数据科学、数据分析、数据挖掘、机器学习、大数据等术语感到有些困惑——这些术语之间有什么严重的区别吗?

从上面看,哪一个才是我真正应该关注和掌握的?继续练习流行的软件,还是切换到 R、Python、Julia、SQL?也许他们两个?同样,我们只讨论经济和金融的研究生和本科水平,以及相关工作。我不想开发严肃而复杂的软件/应用程序,只是定量分析股票价格、企业和经济数据,如年报、就业、GDP 等。

有经验的数据分析师,请指导我通过令人困惑的数据分析工具森林。我很欣赏每一种评论。

1个回答

欢迎来到论坛。我是受过训练的经济学家,我做很多计量经济学,我从事研究工作。我的意见(当然这只是意见)是你应该首先关注 R 并考虑学习 Python。毕竟两者都不是那么难。

为什么?R 是免费的,它为计量经济学提供了很多支持(在社区中广受好评)。它在 ML 社区中也很受欢迎,您可以使用高规格的东西,例如 Keras、LightGBM 等。所以使用 R 不会错。经济学领域的许多顶级研究论文都是用 R 完成的。Stata 对某些事情有好处(比如 Panel),但是有很多事情你不能用 Stata 做。R更强大。

为什么是 Python?Python 和 R 在你可以在计量经济学/统计学中做的事情上是“相似的”。但是 Python 在许多方面提供了更多的灵活性(有些人可能不同意,但这是我的看法)。从本质上讲,Python 是一种在处理数据的基础上为您提供许多可能性的东西。所以看看它。对你的职业生涯非常有益。

数据科学是一个极其广泛的领域。但是,如果您专注于计量经济学/统计学,那么当下许多其他事情也会变得相关。示例包括:使用“大”数据并将结构纳入数据(例如来自在线资源等)。我还认为,神经网络和基于树的事物(例如 boosting)在未来将在经济学中变得更加重要。实际上,在学术界之外,这些方法在经济问题的背景下被大量使用。

最后一点:如果你认为你不能同时做这两个(R 和 Python),那么在这两个方面都有一些知识/经验还是可以的。你随着你的问题而成长。即使您只有很少的经验,如果您知道从哪里/如何开始,您也可以快速前进。找到一份好工作也可能是件好事。

PS 对于 Python,也有一些适合经济学家的优秀软件包/应用程序:https ://lectures.quantecon.org/py/