我如何衡量一个人口是否与其他人口具有相同的分布?

数据挖掘 分类 数据集 相似
2022-02-28 10:37:56

是否有某种人口相似性指数可以帮助我确定两个不同数据集中的两个人口是否相同或至少相似?

数据集具有完全相同数量的变量。

我想要一个逐个变量评估相似性的度量,但总体度量也有效。

我的问题的背景是,考虑到群体之间的相似性,我想知道一个变量是否适合在分类方法中使用。

2个回答

我要说的可能看起来太简单了,但我认为,将多元分布(如高斯分布)拟合到每个分布然后弄清楚均值和协方差矩阵是什么可能还不错。平均值可能不会描述太多信息,但协方差矩阵中显示的方差和相关性可能会有所帮助。

对于确定一个变量是否有用的情况,分析它与其他参数的相关性可能会变得有用。

(这些是我自己的想法)

不确定这是否会对您有所帮助,但有一种叫做 Gower 相似性的东西适用于不同的数据类型。它可用于在逐个变量的基础上计算两个不同数据集中的观察对之间的差异,然后在所有变量之间进行聚合,从而为来自两个数据集的每对观察创建一个差异指数。不知道是否有人用它来解决像你这样的问题,但似乎修改算法应该是可行的,以便跨多对观察(而不是跨变量)聚合结果以得出特定于变量的结果价值。

在 R 中,有一个 StatMatch 包 ( https://cran.r-project.org/web/packages/StatMatch/StatMatch.pdf ) 能够处理这种多数据集方案。文档中有关于它如何计算不同数据类型的观察之间的距离并显示聚合如何工作的信息。聚合只是跨变量的两个观察值的加权相异之和,因此想法是将其更改为所有观察对中同一变量的相异性的加权和。