简短版:尽管阅读了很多,机器学习仍然感觉像是在黑暗中的猴子。有什么建议吗?
作为背景,我是一名计算机科学研究员,从事与机器学习无关的领域。
我一直在努力更精通机器学习*,但无论我阅读和摆弄代码/玩具数据集多少,当我尝试解决一个更难的问题时,我总是对我需要做出的选择感到不知所措:
- 我必须选择算法:这是我通常认为最直接的部分;
- 对于所述算法,我必须选择目标函数:通常,许多都是适用的,而且我发现很难很好地了解是什么使目标函数在某些情况下而不是其他情况下适应,除了非常经典的线性或逻辑回归
- 然后,我应该设计这些特征:除了使用数据中现成的基于内容的特征之外,这对我来说仍然完全是神秘的。
我的印象是我必须“创建”定制的算法和数据。
关于算法,我花了一些时间研究梯度提升及其背后的数学,以至于我对它的工作原理有相当扎实的理解,并对简单数据集的参数调整有直觉。然而,这些知识并不能一概而论。
通常如何处理这些问题?有什么资源可以提供帮助吗?
* 通过参加机器学习 Coursera 课程及其更深入的版本,阅读更多 XgBoost 特定材料(关于其内部结构和参数调整和直觉),以及使用 Titanic 数据集和房地产市场数据集。