数据挖掘 - 各种算法在一个问题中的表现以及可以从数据和问题中推断出什么？ - 吾爱随笔录

嗨，我目前正在尝试将各种算法应用于分类问题，以评估哪种算法可能更好，然后尝试微调第一种方法的最佳效果。我是初学者，所以我现在使用 Weka。我对 ML 概念有基本的理解，但还没有深入了解算法的细节。

我观察到，在我的问题上，RBF 网络的表现比 IBK 和其他 K 方法差得多。

从我读到的关于 RBF 网络的内容中，“它实现了一个归一化的高斯径向基函数网络。它使用 k-means 聚类算法来提供基函数并学习逻辑回归（离散类问题）或线性回归（数值类问题) 最重要的是。对称多元高斯适合来自每个集群的数据。如果类是名义上的，它使用每个类的给定数量的集群。它将所有数字属性标准化为零均值和单位方差。

所以基本上，它也首先使用k手段进行分类。但是由于某种原因，我使用我的指标（ROC）得到了最差的结果，而 K 方法是最好的。我可以从这个事实中推断出一些关于我的数据的重要信息，比如它没有高斯分布，或者不适合逻辑回归，或者任何我无法弄清楚的事实吗？

我还观察到随机森林得到的结果与 K 方法相似，并且添加一个过滤器来降低维度可以改善这些 RF，随机投影比 PCA 更好？

最后一点是否意味着我的数据中有很多随机性，所以随机降维比 PCA 等“规则”降维更好？我可以从 RF 与 K 方法的性能相同的事实中推断出什么？

我觉得这里有一些意义，但我不够熟练，无法理解什么，我会很高兴有任何见解。提前谢谢。