各种算法在一个问题中的表现以及可以从数据和问题中推断出什么?

数据挖掘 机器学习 随机森林 k-均值 降维 威卡
2022-02-11 04:25:25

嗨,我目前正在尝试将各种算法应用于分类问题,以评估哪种算法可能更好,然后尝试微调第一种方法的最佳效果。我是初学者,所以我现在使用 Weka。我对 ML 概念有基本的理解,但还没有深入了解算法的细节。

我观察到,在我的问题上,RBF 网络的表现比 IBK 和其他 K 方法差得多。

从我读到的关于 RBF 网络的内容中,“它实现了一个归一化的高斯径向基函数网络。它使用 k-means 聚类算法来提供基函数并学习逻辑回归(离散类问题)或线性回归(数值类问题) 最重要的是。对称多元高斯适合来自每个集群的数据。如果类是名义上的,它使用每个类的给定数量的集群。它将所有数字属性标准化为零均值和单位方差。

所以基本上,它也首先使用k手段进行分类。但是由于某种原因,我使用我的指标(ROC)得到了最差的结果,而 K 方法是最好的。我可以从这个事实中推断出一些关于我的数据的重要信息,比如它没有高斯分布,或者不适合逻辑回归,或者任何我无法弄清楚的事实吗?

我还观察到随机森林得到的结果与 K 方法相似,并且添加一个过滤器来降低维度可以改善这些 RF,随机投影比 PCA 更好?

最后一点是否意味着我的数据中有很多随机性,所以随机降维比 PCA 等“规则”降维更好?我可以从 RF 与 K 方法的性能相同的事实中推断出什么?

我觉得这里有一些意义,但我不够熟练,无法理解什么,我会很高兴有任何见解。提前谢谢。

0个回答
没有发现任何回复~