嗨,我目前正在尝试将各种算法应用于分类问题,以评估哪种算法可能更好,然后尝试微调第一种方法的最佳效果。我是初学者,所以我现在使用 Weka。我对 ML 概念有基本的理解,但还没有深入了解算法的细节。
我观察到,在我的问题上,RBF 网络的表现比 IBK 和其他 K 方法差得多。
从我读到的关于 RBF 网络的内容中,“它实现了一个归一化的高斯径向基函数网络。它使用 k-means 聚类算法来提供基函数并学习逻辑回归(离散类问题)或线性回归(数值类问题) 最重要的是。对称多元高斯适合来自每个集群的数据。如果类是名义上的,它使用每个类的给定数量的集群。它将所有数字属性标准化为零均值和单位方差。
所以基本上,它也首先使用k手段进行分类。但是由于某种原因,我使用我的指标(ROC)得到了最差的结果,而 K 方法是最好的。我可以从这个事实中推断出一些关于我的数据的重要信息,比如它没有高斯分布,或者不适合逻辑回归,或者任何我无法弄清楚的事实吗?
我还观察到随机森林得到的结果与 K 方法相似,并且添加一个过滤器来降低维度可以改善这些 RF,随机投影比 PCA 更好?
最后一点是否意味着我的数据中有很多随机性,所以随机降维比 PCA 等“规则”降维更好?我可以从 RF 与 K 方法的性能相同的事实中推断出什么?
我觉得这里有一些意义,但我不够熟练,无法理解什么,我会很高兴有任何见解。提前谢谢。