避免对机器学习感到不知所措的策略

数据挖掘 机器学习 xgboost
2021-10-07 14:51:53

简短版:尽管阅读了很多,机器学习仍然感觉像是在黑暗中的猴子。有什么建议吗?

作为背景,我是一名计算机科学研究员,从事与机器学习无关的领域。

我一直在努力更精通机器学习*,但无论我阅读和摆弄代码/玩具数据集多少,当我尝试解决一个更难的问题时,我总是对我需要做出的选择感到不知所措:

  1. 我必须选择算法:这是我通常认为最直接的部分;
  2. 对于所述算法,我必须选择目标函数:通常,许多都是适用的,而且我发现很难很好地了解是什么使目标函数在某些情况下而不是其他情况下适应,除了非常经典的线性或逻辑回归
  3. 然后,我应该设计这些特征:除了使用数据中现成的基于内容的特征之外,这对我来说仍然完全是神秘的。

我的印象是我必须“创建”定制的算法数据。

关于算法,我花了一些时间研究梯度提升及其背后的数学,以至于我对它的工作原理有相当扎实的理解,并对简单数据集的参数调整有直觉。然而,这些知识并不能一概而论。

通常如何处理这些问题?有什么资源可以提供帮助吗?

* 通过参加机器学习 Coursera 课程及其更深入的版本,阅读更多 XgBoost 特定材料(关于其内部结构和参数调整和直觉),以及使用 Titanic 数据集和房地产市场数据集。

2个回答

当我们学习机器学习时,我们必须爬上陡峭的学习曲线。您的问题很笼统:我在学习时使用的策略之一是分而治之。对整个区域进行一些粗略的概述,然后选择一些特定区域并仅在那里进行更深入的挖掘。
也许这个问题太笼统了,最好的策略可能会有所不同,并取决于您所针对的领域。但我不确定学习数学是否总是有帮助(尽管对于那些关心它的人来说可能总是很有趣)。

这些算法通常可以以黑盒方法应用,有时可能不需要用数学术语理解算法(白盒),但足以了解它的功能、优点和缺点(黑盒)。

您可能是第一个为该领域测试该算法的人,因此最终纯粹的实验很有用。

机器学习启蒙之路是高度非线性的。

您已经迈出了一大步,即将来到数据科学交流中心提问。:) 这是一个很棒的地方,充满了资源和良好的指点。

如前所述,您需要慢慢为不同的主题铺平道路,从关于数据集、计算机、训练时间的实际决策,到关于模型和整体方法的更深层次的决策。

作为试图走同样道路的人,我的建议是寻找该领域的优秀领导者并彻底完成他们的课程。我可以推荐的第一个是 David MacKay,他的免费书籍 ( http://www.inference.org.uk/itila/book.html和讲座 ( http://videolectures.net/david_mackay/ )。大卫的方法机器学习是一个“连接器”,试图展示不同领域之间的联系。看看他的讲座并尝试在书中进行练习。这将为您提供坚实的基础,以便您在学习时可以借鉴有麻烦了。他不止一次救了我。

另一个推荐是 Andrew Ng 的 Coursera 机器学习课程。虽然没有那么深,但它对不同的方法充满了实用的建议。

拥有良好的理解将巩固您的基础,因此当诸如深度学习之类的潮流向您袭来时,您将知道如何保持立场并充分利用它。您将了解潮汐是如何来来去去的,并让它们改变您而不是压倒您。