时间序列分布的统计距离

数据挖掘 聚类 时间序列 距离
2021-09-22 04:30:53

我对聚类感兴趣 N 时间序列 T“价值观”。这些值是分布(可以用它们的累积分布函数 (cdf) 或它们的概率密度函数 (pdf) 或更方便的形式表示,例如产生简单球面几何的平方根 pdf)。

为了比较给定的分布,有大量关于统计距离的文献(KL、Hellinger、Wasserstein 等),但是对于比较给定的时间序列分布,我不确定是否有任何文献?

除了时间 t 的分布接近度之外,这样的距离应该以某种方式考虑动态信息。理想情况下,我希望我能有一种类似于这个结果的信息分解

我想知道这样的距离是否已经存在,这种问题是否已经在文献中提出?

- 编辑以获得进一步的精度并回答评论:

感谢您的回答,但动态时间扭曲不适合我的需要。这种 dp 技术仅通过允许非线性时间失真来捕获形状的大致相似性。但是,它并不包含这些时间序列中的全部信息,例如扭曲的分布情况如何?给定时间序列的分布是随时间平稳变化还是剧烈变化?DTW 并不总是解决方案,例如,在使用随机游走时,使用 DTW 没有意义,因为没有时间模式!在这种情况下,唯一的信息是“相关性”和“分布”(参见 Copula 理论中的 Sklar 定理),以及上面引用的论文。

-- 编辑 2 以下是与我的问题有某种关联的论文:

2个回答

这类似于香农探索的基本信息论问题。在那个域中,它是这样构建的:给定两个 rv,X 和 Y,X 传达了关于 Y 的什么信息?

一个例子是,我从已知的 PDF (X) 创建数字/位/字母序列,并且您收到您也知道 PDF (Y) 的那些值的扭曲版本。互信息是 Y 与 X 通信的比特数,可以被认为是一种相关性。

在时变 PDF(即随机过程)的情况下,信息论只会将 rvs 的集合视为一个联合 rv,然后计算联合 PDF 的互信息。如果 PDF 是独立同分布的,则可以进行显着的简化。联合高斯 PDF 也使事情变得更容易。

另一个可能有用的信息论概念是过程的熵率。ER 是对过程中包含的信息量的量化。根据您的问题,您可能能够计算每个进程的 ER,然后将这些值用作可以使用聚类算法分组的特征的实现。

当你有 pdf 文件时,为什么需要一段距离?

时间序列可以根据它们对集群 pdf 的拟合分配给集群。这也意味着该方法适用于参差不齐的时间序列,因为距离方法会失效。