我对数据科学完全幼稚——也就是说,目前如此流行的相对较新、有点炒作的领域。但我对数据并不天真……作为一名科学家和研究人员,我过去曾以不同的角色与各种各样的人合作过。
现在我处于可悲的境地,挖了很多浅坑,使用了不同的软件系统和不同类型的数据,并且在任何事情上都没有真正的专业能力。
我的问题是,如果我想“跟上”数据科学的步伐,或许还想利用我所拥有的不同经验,我该怎么做?理想情况下,我想让我的研究技能有市场——也就是说,成为某种数据科学家,但更加重视研究/报告方面。
假设我是白手起家,但已经展示了能力 - 我这么说是因为,例如,我以前在一些项目中使用过 R,但在休息一年左右后,我每次都需要重新学习它......我开始; 我如何统一所有这些点点滴滴?
在这个领域工作我可以提出什么要求?(我研究过各种各样的数据,从千兆字节的气候数据和地球科学,到健康登记册再到纵向调查……但没有一个是数据科学家的绰号)。
具体来说,我要学习什么工具,我需要掌握什么理论?(请记住,我所有的编码和统计能力大部分都是自学的。)
与这个(迷人的)问题不同,我没有商业背景,也不一定想走向商业分析师的道路——我仍然想玩心理(地球科学)或社会数据。我也不想在数据管理方面工作这么多——我希望数据库和编码成为一种手段,而不是目的。最后,我不太倾向于理论和数学。也许最好的总结我的倾向和立场的方式是,我不想成为数据科学专家,而是希望能够通过数据科学成为特定学科的专家。
我的倾向可能是专注于 Python 之类的东西,并用它来利用 R 和其他功能?
我过去使用过的工具(按曝光顺序)-
- SAS(用于统计和研究,而不是仓库方面)
- VBA/VB6/Excel/Access(数据操作、报告)
- GIS(ArcGIS 用于分析/研究,而不是数据库管理)
- R(统计...)
- 一些 HTML/JS
- 一些 Python
我发现的一件事是,我现有的能力并没有为我提供一个有用的工具来汇集不同的数据并将其置于我想要分析的状态(我想是 ETL?),因此我倾向于重新学习 Python。
谢谢你的想法!