检测多个变量分布的变化

机器算法验证 机器学习 变化点
2022-03-25 09:11:13

我对这个领域有点陌生。所以我需要帮助来找出我应该关注哪个主题来实现这一目标。

假设我有 N 个因随机变量。我有每个这些随机变量的 n 个样本。现在我想检查第 k 个样本是否遵循之前 (k-1) 个样本所建议的模式。

例如,如果有 2 个变量 - X1 和 X2。对于前 10 个样本,假设 X1 > X2。但是如果对于下一个样本 X1 < X2,那么这个样本是异常的。我需要检测这样一个异常样本。

您能告诉我应该学习哪些统计机器学习概念以了解哪些技术适用于这种情况吗?

从我有限的知识来看,这似乎是一个分类问题,必须用无监督技术来解决。

2个回答

这听起来像是马氏距离的工作。您可以通过使用之前的样本(假设,其中是观察到的向量的维度)估计总体协方差和平均向量来应用此方法,然后计算马氏距离。谷歌搜索显示了很多关于这个主题的点击,Bartkowiak似乎是一个不错的起点。(k1)k>NN

在我看来,这听起来更像是一个变化点问题。您应该调查 bcp 包http://cran.r-project.org/web/packages/bcp/index.html以及 strucchange http://cran.r-project.org/web/packages/结构/index.html

John Emerson 维护 bcp 包,当我遇到他时,他似乎非常愿意与社区和潜在用户互动:john.emerson at yale.edu

或者,如果您的数据是时间序列数据,您可能希望研究 qcc 包,并阅读 Douglas Montgomery 的一些关于统计质量控制的工作。