数据挖掘 - 什么是拉普拉斯分数，它们如何影响特征选择？ - 吾爱随笔录

数据挖掘特征选择

2022-02-27 15:04:04

我正在阅读一篇与特征选择相关的论文，其中我经常遇到我无法理解的拉普拉斯分数这个术语。谁能解释它们在特征选择中的重要性？

2个回答

正如@Spacedman 所说，该论文在第 2 页对算法提供了非常清晰的解释。

如果您对符号的数学不太满意，这里是文字的直觉/解释。

制作 k 近邻图。也就是说，对于每个观察，如果另一个观察是其 k 最近邻居之一，则在图中为该观察定义一条边。如果您使用的是监督算法，则如果它们共享相同的标签，则可以定义一条边。
如果任何两个节点（观察）连接，定义一个权重矩阵 S 测量这两个节点之间的相似性（使用一些距离测量）。
为每个特征定义拉普拉斯图。
根据他们的方程计算拉普拉斯分数。

直观地说，您正在使用 KNN 定义网络图并根据您的距离度量评估特征的相似程度。这与其他任何衡量特征重要性的方法一样好，但也有其缺陷，就像所有其他方法一样。

我认为它不能比原始论文更好地解释：

其它你可能感兴趣的问题