特征工程教程

机器算法验证 机器学习 参考 特征工程
2022-02-10 04:02:58

众所周知,特征工程对机器学习极为重要,但我发现与该领域相关的资料很少。我参加了Kaggle的几场比赛,我相信在某些情况下,好的特征甚至可能比好的分类器更重要。有谁知道任何关于特征工程的教程,或者这是纯粹的经验?

2个回答

我会说经验——基本思想是:

  • 适应分类器的工作方式;给树一个几何问题,给 kNN 提供超大尺寸,给 SVM 提供区间数据不是一个好主意
  • 尽可能多地消除非线性;期望某个分类器会在内部进行傅立叶分析是相当幼稚的(即使在那里会浪费很多复杂性)
  • 使特征对所有对象通用,这样链中的一些采样不会将它们淘汰
  • 检查以前的工作——通常用于可视化或测试类似类型数据的转换已经调整以发现有趣的方面
  • 避免不稳定的优化转换,如 PCA,这可能会导致过度拟合
  • 多做实验

Zheng 等人的 O'Reilly 有一本书叫做“机器学习的特征工程”。

我读了这本书,它涵盖了不同类型的数据(例如分类、文本……),并描述了与之相关的特征工程的不同方面。这包括诸如数据规范化、特征选择、文本中的 tf-idf 之类的东西。