无监督学习特征提取教程

机器算法验证 机器学习 参考 无监督学习 特征工程
2022-04-15 11:12:47

我想使用无监督学习方法从(不失一般性)数值数据中提取特征:

  1. 转换:PCA/ICA/NMF
  2. 嵌入:T 分布的随机邻居嵌入。
  3. 基于集群的方法:k-means 或类似方法
  4. 基于内核:内核 PCA

我也考虑使用自动编码器或类似的。然后将提取的特征用于分类器。

我的问题:我一一研究这些方法。一些在原始上下文中(例如聚类)和一些在特征提取的上下文中。我缺乏细节方面的经验,并且出现了许多问题

  • 我可以堆叠这些方法吗?我会失去什么?
  • 我可以将它们应用于数据的子集(以减少训练时间)并预测其余部分吗?

因此:

网络上是否有教程/讲义/博客文章描述了这种意义上的特征提取的最佳实践?

PS:像这样的课程第 4 周:特征构建处理我的问题——我很想从应用的角度看到更多的例子。这个问题特征工程教程是相似的,但我希望我的不是重复的。

3个回答

Ali Ghodsi的Dimensionality Reduction A Short Tutorial是一个很好的参考。它涵盖了 PCA、局部线性嵌入、多维缩放和 Isomap。

Dan Ventura 为我们提供了一些很好的 流形学习示例 ——特别是 PCA、LLE 和 ISOMAP

Kilian Weinberger 有一个很好的网页专门介绍流形学习

Machine Learning Mastery中有一个关于特征工程的高级概述, 其中也有一些参考资料。

Lawrence Cayton 有一篇关于流形学习算法的概述论文

尽管它主要是关于有监督的特征提取,但我讨厌忽略 Isabelle Guyon 的工作。她有一篇不错的论文An Introduction to Variable and Feature Selection slides from a KDD Tutorial和她关于Feature Extraction的书。

截至 2017 年 1 月 18 日检查的所有链接

那里肯定有很多博客、探索和教程,不幸的是我什么都不知道。如果你想解释检查 Udacity georgia techs ML course,他们有一个关于 PCA/ICA 的部分(也许是 NMF)

你可以把它们堆叠起来。有时运行 PCA 以减少尺寸,因此 ICA/NMF 不必做太多工作。我想先运行 ICA/NMF,然后再运行 PCA 并没有多大意义。

是的,您只能在数据子集上训练它们。它可能应该已经实现了预测和拟合功能(或类似的东西)

我个人认为无监督学习的特征提取没有很好的定义。如果数据中没有ground truth label,那么特征提取的目标是什么,即我们如何知道导出的特征是好是坏?

我们可以有有限的方法从数据中获取新特征,但不知道新特征是否好。进行特征工程的经典方法包括基扩展,我们可以选择不同的基,例如多项式基、傅里叶基等。

可以在这里找到示例:

用多项式拟合周期性数据有什么问题?