对具有分类变量和连续变量的数据集进行类 PCA 分析

数据挖掘 数据集 统计数据
2022-02-21 04:06:05

我有一个包含分类变量和多个连续变量的数据集。分类变量被编码为离散整数,而连续变量只是一系列浮点数。我相信我的数据集中的方差几乎可以完全由单个分类变量和许多连续变量之一来描述。为了证明这一点,我会对使用 PCA 感兴趣,但我不确定在考虑分类数据时使用的最佳方法。有什么建议么?

3个回答

我不知道任何可以处理分类值的降维算法(如 PCA)。

但是,一种可以帮助您的方法是对分类变量进行一次性编码(如果可能值的数量是可管理的。否则,请尝试仅选择最常见的值并将其余值分配给单个变量)。

如果您使用的是 Pandas DataFrames,get_dummies可能会有所帮助。

分类值可以取多少个值?

也许为每个可能的值创建一个列,如果列名与分类值匹配,则为 1,否则为 0。

我认为这将出现在 PCA 中。

统计信息 SE 中对此进行了多次讨论。作为起点:https ://stats.stackexchange.com/q/5774/232706