我有一个离散(序数、分元和名义)变量的数据集,描述了几种密切相关的昆虫的形态翅膀特征。我想做的是进行某种分析,根据形态特征,我可以直观地表示不同物种的相似性。我脑海中浮现的第一件事是 PCA(这是我想要创建的可视化类型),但在研究之后(特别是其他问题,例如:主成分分析是否可以应用于包含连续混合的数据集?和分类变量?),似乎 PCA 可能不适用于离散数据(PCA 用于文献中的这些类型的研究,但总是用于连续数据)。忽略为什么这些数据不合适的统计背景,PCA 确实给了我关于我的生物学问题的相对完美的结果(感兴趣的混合群体正好位于他们父系群体的中间)。
我也尝试过多重对应分析来安抚统计数据(至少就我的理解而言),但我似乎无法得到一个类似于我用 PCA 得到的情节,我的观察(生物个体)用颜色隔开,以显示不同的分组(从生物学上讲,不同的物种)。似乎这种分析旨在描述变量(这里是我的形态特征)如何相互关联,而不是单独的观察。当我绘制按组着色的观察结果时,我只得到一个描述整个个体集的值(也许是平均值)。我已经在 R 中完成了分析,所以也许我还不够精通 R,无法让我对情节的想法发挥作用。
我对我的数据进行这种分析是正确的,还是我偏离了轨道?如果你不知道,我的统计专业知识是有限的,所以这些分析下发生的方程式完全超出了我的想象。我正在尝试完全描述性地进行此分析(我不需要再做任何下游数字运算),并且我已经读到如果是这种情况,PCA 就足够了,但要确保我不是违反了太多的统计假设。