我看过一些数据科学的工作描述,其中包括开发一种新算法以成为生产环境的一部分。您能否就此处的确切含义提供一些输入?它们是否意味着某种行为类似于 ETL 的算法:获取数据、清理数据、存储数据并在其上运行已知模型?或者更复杂的东西,比如构建已知预测算法的变体?一些例子真的很好,因为我正在学习进入这个领域。
在工业界,人们开发了哪种类型的新数据科学算法?
数据挖掘
预测建模
算法
2021-10-04 03:01:21
4个回答
我不是数据科学家,只是一个两年的有抱负的人,从我的软件工程和数学背景开始。所以我参加了一些课程,接受了一些采访,在网上阅读了很多关于这个主题的内容。我的看法:
研究中心和大学都在开发新算法。即便如此,公司中使用的大多数算法都已经开发出来,并且进行了更多优化。不要抱有希望,也不要害怕你必须重新发明梯度下降反向传播。
随着算法的发展,它们很可能意味着数据提取、数据清理、用于报告统计的数据准备和呈现图表。也许以编程方式,也许只是使用工具。
所呈现的数据可能会为领域中的简单关系提供更多见解,并可能对可以提出的更复杂问题提供见解。
您可以定义数据流,比较和选择机器学习算法并调整其参数。并在实践中不断评估模型性能。
确实很少有人开发出一种新颖的算法来解决他们的问题。根据我的经验,更重要的是了解业务领域,如何规范化数据并选择应该最小化的损失函数。
但是拥有各种算法的经验是非常有价值的,这样您就可以为工作选择合适的工具。
如果工作列表说一个人“必须开发新算法”,我会更像“必须开发新程序/软件/脚本”来阅读它。
你可能对关于机器学习和数据科学状况的年度Kaggle 调查感兴趣。
与您的问题相关的一些关键结果:
最常用的算法是线性回归和逻辑回归,紧随其后的是决策树和随机森林。在更复杂的方法中,梯度提升机和卷积神经网络是最流行的方法。
报告中的一些数字(2020 年):
线性或逻辑回归 - 83.7%
决策树或随机森林 - 78.1%
梯度提升机器(xgboost、lightgbm 等) - 61.4%
卷积神经网络 - 43.2%
贝叶斯方法 - 31.4%
循环神经网络 - 30.2%
神经网络(MLP 等) - 28.2%
变压器网络(BERT、gpt-3 等) - 14.8%
生成对抗网络 - 7.3%
进化方法 - 6.5%
其它你可能感兴趣的问题