数据挖掘 - 在工业界，人们开发了哪种类型的新数据科学算法？ - 吾爱随笔录

在工业界，人们开发了哪种类型的新数据科学算法？

数据挖掘预测建模算法

2021-10-04 03:01:21

我看过一些数据科学的工作描述，其中包括开发一种新算法以成为生产环境的一部分。您能否就此处的确切含义提供一些输入？它们是否意味着某种行为类似于 ETL 的算法：获取数据、清理数据、存储数据并在其上运行已知模型？或者更复杂的东西，比如构建已知预测算法的变体？一些例子真的很好，因为我正在学习进入这个领域。

4个回答

我不是数据科学家，只是一个两年的有抱负的人，从我的软件工程和数学背景开始。所以我参加了一些课程，接受了一些采访，在网上阅读了很多关于这个主题的内容。我的看法：

研究中心和大学都在开发新算法。即便如此，公司中使用的大多数算法都已经开发出来，并且进行了更多优化。不要抱有希望，也不要害怕你必须重新发明梯度下降反向传播。

随着算法的发展，它们很可能意味着数据提取、数据清理、用于报告统计的数据准备和呈现图表。也许以编程方式，也许只是使用工具。

所呈现的数据可能会为领域中的简单关系提供更多见解，并可能对可以提出的更复杂问题提供见解。

您可以定义数据流，比较和选择机器学习算法并调整其参数。并在实践中不断评估模型性能。

在工业中，它通常是基本思想的变体（但很重要）。

看看这个提升时间表：

(Ada) 2003 年由两位教授正式助推
2014 年DLMC分布式机器学习社区的xgboost
微软在 2017 年推出的 lightgbm
2017 年yandex 的catboost
+- 两者之间的所有变化都没有赶上

基于“基本”思想，他们在修改/定义要执行的新步骤序列时删除了所有负面思想。

回答你的问题。只要您有一些重要的（有争议的）新的（或变体的）要执行的步骤序列，并且具有适当的概括程度，您就可以得到一个算法。所以新算法的类型取决于你工作的领域。

确实很少有人开发出一种新颖的算法来解决他们的问题。根据我的经验，更重要的是了解业务领域，如何规范化数据并选择应该最小化的损失函数。

但是拥有各种算法的经验是非常有价值的，这样您就可以为工作选择合适的工具。

如果工作列表说一个人“必须开发新算法”，我会更像“必须开发新程序/软件/脚本”来阅读它。

你可能对关于机器学习和数据科学状况的年度Kaggle 调查感兴趣。

与您的问题相关的一些关键结果：

最常用的算法是线性回归和逻辑回归，紧随其后的是决策树和随机森林。在更复杂的方法中，梯度提升机和卷积神经网络是最流行的方法。

报告中的一些数字（2020 年）：

线性或逻辑回归 - 83.7%
决策树或随机森林 - 78.1%
梯度提升机器（xgboost、lightgbm 等） - 61.4%
卷积神经网络 - 43.2%
贝叶斯方法 - 31.4%
循环神经网络 - 30.2%
神经网络（MLP 等） - 28.2%
变压器网络（BERT、gpt-3 等） - 14.8%
生成对抗网络 - 7.3%
进化方法 - 6.5%

其它你可能感兴趣的问题

上一篇数据集了解最佳实践下一篇交叉验证后如何选择分类器？