我的数据科学研究始于应用统计学硕士学位。其中一门课程是机器学习,它与您所描述的方法相似。所以,我可以对你目前的观点有点同情。但是,就像您在生活中可能学到的其他东西一样,您在学术环境中做事的方式和您在商业环境中(即为客户)做事的方式是完全不同的。以下是我从最初学习以来所学到的:
1 - 学习 Python
当然,还有其他工具,它们很好(我曾经用最好的工具编写 R 代码),但 Python 是未来的所在。另外,很少有工具可以像 Python 一样扩展,如果你想处理一些非常酷的东西,这一点很重要。
2 - 这一切都归结为实施
你猜怎么着?您现在正在学习的所有这些东西(混淆矩阵、因子减少等)对您的客户来说并不重要。他们只会看着你说,“产品是什么?你什么时候要在我的手机上部署一些东西?我的 webapp 在哪里点击?”。你工作的很大一部分是将你所有的工作变成一个产品,你会发现自己戴着一顶准软件开发者的帽子。这也是学习python的另一个好理由。
3 - 数据管道需要时间
你的很多工作都在数据操作上,只是确保你需要的数据管道在那里。当然,您有一个数据库——但是您将如何更新它呢?你需要什么预处理?你的结果存储在哪里?您将花费大量时间来弄清楚这些东西。你会怀念你的学生时代,那时数据集以干净整洁的方式提供给你 :)
4 - 神经网络踢屁股
一旦你咬了一口这个苹果,就很难再回去了:)。学习 Keras 并享受旅程。过了一会儿,你必须提醒自己什么是决策树:)
5 - 模型搜索现在更容易了
100% 清楚,您现在正在做的“模型搜索”方法是非常宝贵的经验。你绝对应该在这些课程上努力学习。但是,如果您有时间,请查看 (1) Data Robot 或 (2) Watson Analytics。这两个软件包基本上都做同样的事情。他们将获取您的数据集并为您找到最佳模型。您上面描述的所有项目都在几秒钟内为您完成。它们的速度几乎令人恐惧,而且它们在帮助您减少工作方面非常有效。但是,请注意,这些软件包仅支持受监督的数据。对于无监督数据(或标记一些数据并使用神经网络),您仍然需要使用老式的方法。
6 - 我仍然使用其他模型背后的理论
即使我经常使用神经网络,其他模型仍然有用。您仍将使用线性回归或决策树来解决基本问题。当我决定阅读有关 archivx 或其他什么的研究论文时,它也很有帮助。所以,我仍然会用它们来学习和理解,但仅此而已。
玩得开心!