从原始数据自动构建新特征

数据挖掘 机器学习 深度学习 特征选择 特征提取 特征工程
2022-01-30 15:54:33

一些观察的原始状态过于庞大,无法直接通过预测建模算法进行建模。

常见示例包括图像、音频和文本数据,但也可以轻松地包括具有数百万属性的表格数据。

特征提取是一个自动将这些类型的观察的维数减少到可以建模的更小的集合的过程。

对于表格数据,这可能包括投影方法,如主成分分析和无监督聚类方法。对于图像数据,这可能包括线或边缘检测。根据不同的领域,图像、视频和音频观察适用于许多相同类型的 DSP 方法。

如何从原始数据生成具有更高预测值的新特征并将它们连接到原始数据?

例如,我有关于学生财富、健康、家庭状况的数据,我想以某种方式生成一个我可以称之为社会地位的新特征,它是从原始数据生成的并具有高预测价值?这可能吗?线性回归可以是我需要发现的好方法吗?

1个回答

“高预测值”仅在您尝试预测的目标时才定义。您似乎没有,您的目标是根据各种因素定义的某种规模对数据点进行聚类。这些无疑可用于对数据点进行聚类,我建议您研究各种可用的方法:您可能会感兴趣的一些方法是凝聚和分层聚类。

现在要回答这个问题,您肯定可以从数据集中存在的特征中生成新特征,这些特征可能会或可能不会帮助您实现目标。你可以:

  • 对您的数据进行分类:定义一些类别,例如具有指定范围的“丰富”、“平均”、“贫穷”,并创建一个将数值(财富)映射到分类的新特征
  • One-hot-encode分类变量

完成这些预处理步骤后,您可以继续应用我提到的聚类方法,将数据组合到各自的“社会地位”中。当然,需要进行大量的调整和实验。就我所遇到的而言,并没有真正自动生成新功能的方法,而且大多数可用方法在很大程度上取决于您正在处理的数据类型和问题。