关联时间戳

机器算法验证 聚类
2022-04-16 03:22:04

假设我正在分析一个小时内的行为模式。我记录了三种不同的行为以及它们发生的时间戳(开始结束)。就像是:

yawning       stretching    whispering
2:21-2:22     3:31-3:33     1:21-1:30
3:42-3:45     8:23-8:59     9:27-9:33
9:20-925      9:34-9:44     14:04-14:07
14:45-14:32   15:01-15:06   18:00-18:22
.
.
.
45:40-45-43   45:23-45:30   44:19-44:44

是否有一种统计方法可以确定某些行为是否在某些时间段/彼此之间相互关联或聚集?例如,也许我想知道这三种(或仅两种)行为是否彼此靠近,或者我想知道这些行为是否彼此不靠近。这三种行为中的哪一种倾向于聚集在一起?

我什至不知道我在看哪个领域的统计数据。

2个回答

我假设您呈现数据的方式中的行并不一定意味着任何东西,即第三次打哈欠、第三次耳语和第三次伸展之间没有必要的联系。你对第三次哈欠感兴趣的是“这与任何耳语的时间有多接近——不仅仅是第三次耳语”。

对于每个打哈欠,我都会计算到最近耳语的时间和最近的伸展时间。同样对于每个耳语(计算最近伸展的时间和最近打哈欠的时间);并为每一个伸展。然后,我将计算每种行为与其他两种行为的接近程度的某种指标统计数据——例如修剪后的平均时间到另一种类型的最近行为的时间。(这些指标将有六个,而不仅仅是三个,因为从打哈欠到最近的拉伸的平均时间与从拉伸到最近的打哈欠的平均时间不同。)

这已经让您对哪些行为聚集在一起有所了解,但您还应该检查这是否合理地归因于偶然性。

为了检查这一点,我将在无关系的零假设下创建由模型生成的模拟数据。这样做需要从一个合理的空模型生成每个行为时间的数据,可能基于对每个事件之间的时间(例如,每个打哈欠之间)重新采样,以创建一组新的假设空模型事件的时间戳。然后为这个空模型计算相同的指标统计量,并与您的真实数据中的指标进行比较。通过多次重复此模拟,您可以确定您的数据中的指标是否与空模型的模拟数据有足够的差异(例如,从每次打哈欠到最近的拉伸的平均时间更短)以计为反对的统计显着证据你的零假设。

我有类似的问题,我的解决方案很幼稚-如果发生给定的活动,则创建代表一天中每一分钟的新变量,然后将该分钟标记为 1 :

yawning     ->  yawning  
...             ...
2:21-2:22       2:21 1
3:42-3:45       2:22 1
9:20-925        2:23 0
14:45-14:32     . 
.               3:42 1
.               3:43 1
.               .
45:40-45-43     .

所以我们现在有了新的时间序列,我们可以通过更标准的方法对其进行分析,这非常有效,我已经在下面的 logit 模型上测试了模拟数据,其中 x 是 0-1 变量,z - “驱动”变量:p(x(t+1)=1|p(x)=1)=exp(x+B1*z)/denominator 对于 y 也是如此,B2 与 B1 越接近,通过汉明距离测量的 x 和 y 之间的相关性就越好。

方法问题:如果activity_11在白天的总时间是activity_2的10倍怎么办?有时没关系,有时需要一些加权距离 - 在我们想要构建距离矩阵的情况下。