保留语义的与领域无关的特征工程?

机器算法验证 预测模型 特征选择 特征工程
2022-03-22 05:49:13

特征工程通常是机器学习的重要组成部分(它在 2010 年被大量用于赢得 KDD 杯)。但是,我发现大多数特征工程技术

  • 破坏底层特征的任何直观含义或
  • 非常特定于特定领域甚至特定类型的功能。

前者的一个经典例子是主成分分析。在我看来,主题专家对这些特征的任何了解都会因将这些特征转换为主成分而被破坏。

与将日期转换为“月中日”和“周中日”的特征的简单技术进行对比。新功能中仍然保留了基本含义,但显然这种特殊技术仅适用于日期,而不适用于任意功能。

是否有任何标准的特征工程技术体系不会破坏底层特征的含义,同时也适用于任意领域(或至少是各种各样的领域)?

2个回答

我知道一种分解方法(但也许还有更多......)在您描述的场景中可能很有用。它就像 2D-PCA - 一种高阶分解方法,其中分解(即因子)具有一定的意义。您可以在此处此处查看示例并阅读相关内容并尝试在此处

最近使用受限玻尔兹曼机的深度学习方法在几种数据类型(音频、图像、文本)上显示出很好的特性。

由于这些方法创建了一个生成模型,因此您通常可以从模型中生成非常好的样本。

查看 Hinton 的出版物。 http://www.cs.toronto.edu/~hinton/

这些方法并不完全通用(在每个数据上运行相同的代码),但底层模型通常是相似的。