一些观察的原始状态过于庞大,无法直接通过预测建模算法进行建模。
常见示例包括图像、音频和文本数据,但也可以轻松地包括具有数百万属性的表格数据。
特征提取是一个自动将这些类型的观察的维数减少到可以建模的更小的集合的过程。
对于表格数据,这可能包括投影方法,如主成分分析和无监督聚类方法。对于图像数据,这可能包括线或边缘检测。根据不同的领域,图像、视频和音频观察适用于许多相同类型的 DSP 方法。
如何从原始数据生成具有更高预测值的新特征并将它们连接到原始数据?
例如,我有关于学生财富、健康、家庭状况的数据,我想以某种方式生成一个我可以称之为社会地位的新特征,它是从原始数据生成的并具有高预测价值?这可能吗?线性回归可以是我需要发现的好方法吗?