我正在寻找一些好的术语来描述我正在尝试做的事情,以便更容易地寻找资源。
所以,假设我有两个点 A 和 B 簇,每个点都与两个值 X 和 Y 相关联,我想测量 A 和 B 之间的“距离”——即它们从相同分布中采样的可能性有多大(我可以假设分布是正常的)。例如,如果 X 和 Y 在 A 中相关但在 B 中不相关,则分布不同。
直观地说,我会得到 A 的协方差矩阵,然后看看 B 中的每个点适合在那里的可能性有多大,反之亦然(可能使用类似 Mahalanobis 距离的东西)。
但这有点“临时”,并且可能有一种更严格的描述方式(当然,在实践中,我有两个以上的数据集和两个以上的变量 - 我试图确定我的哪些数据集是异常值)。
谢谢!