你的数据科学工作真的需要数学吗?

数据挖掘 机器学习 数学
2021-09-14 02:04:39

我是一名从事数据​​科学家工作的物理学家。到处都告诉我,我的学位是一个很好的起点,因为我知道很多数学知识,这对这份工作至关重要。但除了理解模型计算背后的数学之外,我不使用任何数学。好的,有时我需要创建主成分或执行 SVD,但这些只是任何人都可以在互联网上查找的算法。

所以老实说,我有点担心,因为我可能做错了什么。你能分享你的经验吗?重要提示:可能是我的工作没有使用深度学习。

4个回答

拥有扎实的数学背景对于数据科学至关重要。没有扎实数学背景的人总是将算法用作黑盒模型。

当您调试模型时需要数学推理,当您想为手头的问题提出创造性的解决方案时也需要数学推理。没有数学背景的人将很难想出解决实际问题的方法。

你举了主成分分析的例子。如果不了解特征值和特征向量是什么,您将永远只能肤浅地理解您的结果意味着什么。而且您必须向业务人员解释它,以说服他们应该使用给定的算法。如果你站在那里总是说这是一个神奇的算法,你不会说服业务人员部署你的系统。

统计知识或统计思维对以下方面有用或必要:

  • 了解、评估和选择适当的指标来评估模型的性能。

    您需要了解预测错误的实际成本以及每个指标如何与此相关。

  • 探索和理解数据,例如帮助为未来的模型或其他业务决策提供信息,或者查找和解决数据错误或异常,以便从模型中获得最佳性能。

  • 调查并解决模型表现不佳的示例,而不仅仅是查看少数示例。

  • 通过能够识别何时改进可能只是噪音来适当地比较模型的性能。

如果您从不打印平均值或绘制分布图,那么我会有点担心。尽管数学提供帮助的许多方法不是直接计算某个值或其他什么,而是更多关于当您处理大量数据和该数据的指标时能够真正理解您在做什么(即统计数据)。

它还取决于域以及您使用的功能。如果您正在做例如图像分类,那么进行统计分析的空间可能不如您只是基于不同且通常独立的特征进行经典预测问题那样大。

不,您不需要像物理一样需要数学来进行数据科学。作为一名数据科学家,您不会积分压力-能量张量,甚至不会求解微分方程。

你需要的是良好的定量推理和批判性思维能力。NotThatGuy 的回答给出了一些你可能认为“只是算术”的很好的例子,比你已经完成的数学课程更基础,但你会惊讶于有多少人在这些事情上挣扎。你可能会自动做很多事情,甚至没有意识到你正在做任何特别的事情。但由于你接受过数学训练,这些东西对你来说是第二天性。

我是一名机械工程师,辅修计算机科学和数学。以我个人的经验,数学知识在信号处理应用程序中非常有用,并且对数据做一些创造性/复杂的事情,但正如许多其他人所说,我认为良好的数学“感觉”比明确的“感觉”更有影响力自己做数学的能力。