什么是拉普拉斯分数,它们如何影响特征选择?

数据挖掘 特征选择
2022-02-27 15:04:04

我正在阅读一篇与特征选择相关的论文,其中我经常遇到我无法理解的拉普拉斯分数这个术语。谁能解释它们在特征选择中的重要性?

2个回答

正如@Spacedman 所说,该论文在第 2 页对算法提供了非常清晰的解释。

如果您对符号的数学不太满意,这里是文字的直觉/解释。

  1. 制作 k 近邻图。也就是说,对于每个观察,如果另一个观察是其 k 最近邻居之一,则在图中为该观察定义一条边。如果您使用的是监督算法,则如果它们共享相同的标签,则可以定义一条边。

  2. 如果任何两个节点(观察)连接,定义一个权重矩阵 S 测量这两个节点之间的相似性(使用一些距离测量)。

  3. 为每个特征定义拉普拉斯图。

  4. 根据他们的方程计算拉普拉斯分数。

直观地说,您正在使用 KNN 定义网络图并根据您的距离度量评估特征的相似程度。这与其他任何衡量特征重要性的方法一样好,但也有其缺陷,就像所有其他方法一样。

我认为它不能比原始论文更好地解释:

http://papers.nips.cc/paper/2909-laplacian-score-for-feature-selection.pdf