非常小的样本量的降维技术

机器算法验证 主成分分析 因子分析 降维 小样本 对应分析
2022-03-22 11:14:23

我有 21 个社会经济和态度宏观层面的变量(例如 24-54 岁未就业的母亲百分比、3-5 岁儿童在托儿所的百分比等)。我还有提供强化托儿服务的祖父母比例的数据。我选择的大多数社会经济变量与儿童保育服务高度相关(例如,兼职母亲的比例与祖父母儿童保育服务之间存在负相关)。

理想情况下,我想创建一个不同类型国家的类型学。我希望使用某种降​​维技术,其组成部分或因素会产生一些直观的意义(例如对家庭和性别的态度、劳动力市场结构、家庭政策)。或者,评估 21 个宏观层面指标中的哪一个最能解释各国儿童保育服务的差异。

我的主要问题是我只有 12 个欧洲国家。我认为 PCA 和因子分析在如此少的情况下不是合适的技术。我对么?有人告诉我尝试使用定性比较分析或多重对应分析,尽管据我了解,后一种技术更适合二元(或分类)宏观水平指标(而我的是百分比或连续变量)。

3个回答

正如彼得埃利斯的评论/回答所暗示的那样,您正在谈论降维而不是数据缩减。您已将数据点的数量更改为协变量空间的大小。现在 Peter Flom 是对的,PCA 和 FA 方法可以在小样本量下尝试,但不仅相关性可能被估计得不好,而且你可能会被愚弄掉到太低的维度,因为特征可能看起来更多比它们与更大样本的高度相关。我不会推荐它。

我会选择协惯性分析,这是规范分析的一种不言而喻的变体。这将为您提供具有最高协惯性的 21 个变量的线性组合,以及育儿数据的线性组合(如果它是单个定量变量,则为育儿)。使用协惯性而不是相关性的诀窍是,当变量多于观察值时,您仍然可以执行计算。

不幸的是,中央情报局并不是很广泛。它是为生态学而开发的,那里的变量通常比观测点多。您可以在Dray, Chessel and Thioulouse, Ecology 84(11), 3078-89, 2003中找到一些技术信息

也就是说,其他评论/答案是正确的,12 是一个相对较小的数字,你将不得不忍受这个......

考虑到这个问题,设计了正则化探索性因素分析。作者有 Matlab 代码可用。