在工业界,人们开发了哪种类型的新数据科学算法?

数据挖掘 预测建模 算法
2021-10-04 03:01:21

我看过一些数据科学的工作描述,其中包括开发一种新算法以成为生产环境的一部分。您能否就此处的确切含义提供一些输入?它们是否意味着某种行为类似于 ETL 的算法:获取数据、清理数据、存储数据并在其上运行已知模型?或者更复杂的东西,比如构建已知预测算法的变体?一些例子真的很好,因为我正在学习进入这个领域。

4个回答

我不是数据科学家,只是一个两年的有抱负的人,从我的软件工程和数学背景开始。所以我参加了一些课程,接受了一些采访,在网上阅读了很多关于这个主题的内容。我的看法:

研究中心和大学都在开发新算法。即便如此,公司中使用的大多数算法都已经开发出来,并且进行了更多优化。不要抱有希望,也不要害怕你必须重新发明梯度下降反向传播。

随着算法的发展,它们很可能意味着数据提取、数据清理、用于报告统计的数据准备和呈现图表。也许以编程方式,也许只是使用工具。

所呈现的数据可能会为领域中的简单关系提供更多见解,并可能对可以提出的更复杂问题提供见解。

您可以定义数据流,比较和选择机器学习算法并调整其参数。并在实践中不断评估模型性能。

在工业中,它通常是基本思想的变体(但很重要)。

看看这个提升时间表:

  • (Ada) 2003 年由两位教授正式助推
  • 2014 年DLMC分布式机器学习社区的xgboost
  • 微软在 2017 年推出的 lightgbm
  • 2017 年yandex 的catboost
  • +- 两者之间的所有变化都没有赶上

基于“基本”思想,他们在修改/定义要执行的新步骤序列时删除了所有负面思想。

回答你的问题。只要您有一些重要的(有争议的)新的(或变体的)要执行的步骤序列,并且具有适当的概括程度,您就可以得到一个算法。所以新算法的类型取决于你工作的领域。

确实很少有人开发出一种新颖的算法来解决他们的问题。根据我的经验,更重要的是了解业务领域,如何规范化数据并选择应该最小化的损失函数。

但是拥有各种算法的经验是非常有价值的,这样您就可以为工作选择合适的工具。

如果工作列表说一个人“必须开发新算法”,我会更像“必须开发新程序/软件/脚本”来阅读它。

你可能对关于机器学习和数据科学状况的年度Kaggle 调查感兴趣。

与您的问题相关的一些关键结果:

最常用的算法是线性回归和逻辑回归,紧随其后的是决策树和随机森林。在更复杂的方法中,梯度提升机和卷积神经网络是最流行的方法。

报告中的一些数字(2020 年):

  • 线性或逻辑回归 - 83.7%

  • 决策树或随机森林 - 78.1%

  • 梯度提升机器(xgboost、lightgbm 等) - 61.4%

  • 卷积神经网络 - 43.2%

  • 贝叶斯方法 - 31.4%

  • 循环神经网络 - 30.2%

  • 神经网络(MLP 等) - 28.2%

  • 变压器网络(BERT、gpt-3 等) - 14.8%

  • 生成对抗网络 - 7.3%

  • 进化方法 - 6.5%