在过去的两年里,我一直在一家政府公司担任全职数据科学家。作为组织中唯一的数据科学团队,我们的工作是数据科学和机器学习工程的混合体。我们需要针对组织的业务问题研究和开发机器学习解决方案,并在生产环境中实施它们。问题是我在知识方面感到困惑,我不知道我能做些什么。让我解释。
我主修计算机科学(B.Sc)。虽然我在专业期间学习了一些 AI/ML 课程,但我将大部分数据科学教育贡献给了这本精彩的书“Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow”。在组织的过去两年中,我在该领域获得了很多经验:我设法为组织的几个业务问题带来了一些公平但远非完美的机器学习解决方案。
但是,唉,我仍然觉得我错过了阻碍我前进的一大块拼图。我觉得我被困在初学者和中级数据科学家之间。我对基本的机器学习模型及其基本直觉和算法了如指掌。我知道深度学习的基础知识以及如何在 keras/tensorflow/pytorch 中实现它们。我了解 CNN、RNN 和其他基本的深度学习架构。我对 pandas、numpy 和所有其他常见的数据预处理\争论\可视化库非常多产。然而,尽管如此,我还是无法摆脱我错过了一些重要的东西的感觉。这将对我之前研究的机器学习问题产生影响,并将专业数据科学家与我区分开来。有时我觉得,由于缺乏更好的术语,“堆栈溢出”数据科学家。我的意思是,每一个问题都是一样的——我对数据进行了一点预处理(没有太花哨或高级),我尝试了几个基本的机器学习模型(通常随机森林\梯度提升效果最好),然后我试着看看是否我可以通过深度学习方法获得更好的结果。最后,我将做一些超参数优化,并开始在生产中实现这个模型的过程。
我知道主要嫌疑人是我不太好的数学/统计知识,但真的吗?显然,我知道模型背后的基本数学(并不是说我认为它在这一点上真的很重要),并且我知道统计学中的基本概念。作为一名数据科学家,改进其中任何一个领域是否会真正提高我在日常工作中的表现?因为老实说,我不认为这是答案。我不打算攻读计算机科学硕士学位。我正在寻找更多有用的书籍、在线课程或其他任何可能有帮助的东西。
总结一下:我怎样才能“逃离”这个初学者领域并成为下一个级别的数据科学家/ml 工程师?除了为每个问题做基本和明显的事情之外,它还可以带来一些独特的东西。
我真的很感激对此的任何建议。提前致谢。