离散数据和 PCA 的替代方案

机器算法验证 主成分分析 离散数据 对应分析 混合类型数据
2022-03-23 07:52:40

我有一个离散(序数、分元和名义)变量的数据集,描述了几种密切相关的昆虫的形态翅膀特征。我想做的是进行某种分析,根据形态特征,我可以直观地表示不同物种的相似性。我脑海中浮现的第一件事是 PCA(这是我想要创建的可视化类型),但在研究之后(特别是其他问题,例如:主成分分析是否可以应用于包含连续混合的数据集?和分类变量?),似乎 PCA 可能不适用于离散数据(PCA 用于文献中的这些类型的研究,但总是用于连续数据)。忽略为什么这些数据不合适的统计背景,PCA 确实给了我关于我的生物学问题的相对完美的结果(感兴趣的混合群体正好位于他们父系群体的中间)。

我也尝试过多重对应分析来安抚统计数据(至少就我的理解而言),但我似乎无法得到一个类似于我用 PCA 得到的情节,我的观察(生物个体)用颜色隔开,以显示不同的分组(从生物学上讲,不同的物种)。似乎这种分析旨在描述变量(这里是我的形态特征)如何相互关联,而不是单独的观察。当我绘制按组着色的观察结果时,我只得到一个描述整个个体集的值(也许是平均值)。我已经在 R 中完成了分析,所以也许我还不够精通 R,无法让我对情节的想法发挥作用。

我对我的数据进行这种分析是正确的,还是我偏离了轨道?如果你不知道,我的统计专业知识是有限的,所以这些分析下发生的方程式完全超出了我的想象。我正在尝试完全描述性地进行此分析(我不需要再做任何下游数字运算),并且我已经读到如果是这种情况,PCA 就足够了,但要确保我不是违反了太多的统计假设。

1个回答

这在一定程度上取决于您的目的,但是如果您使用可视化工具,则可以将多维缩放应用于随机森林邻近度的输出,这可以产生漂亮的图片,并且适用于分类数据和连续数据的混合。在这里,您将根据您的预测因素对物种进行分类。但是 - 这是一个很大的警告 - 我不知道是否有人真的知道这些可视化的输出意味着什么。

另一种选择可能是将多维缩放应用于像 Gower 相似度这样的东西。

有一个悬而未决的问题——你的最终目的是什么?你想回答什么问题?我喜欢这些技术作为探索性工具,也许可以引导你提出更多更好的问题,但我不确定它们自己解释或告诉你什么。

也许我对您的问题读得太多了,但是如果您想探索哪些预测变量具有位于两个纯物种之间的杂种的值,您可能最好建立一个模型来估计导致预测变量的值直接对物种和杂交种。如果你想测量变量之间的关系,也许可以建立一个相关矩阵——这有很多简洁的可视化。