我有多个独立的编码人员试图识别时间序列中的事件——在这种情况下,观看面对面对话的视频并寻找特定的非语言行为(例如,点头)并编码每个事件的时间和类别事件。这些数据可以合理地被视为具有高采样率(30 帧/秒)的离散时间序列或连续时间序列,以更容易处理为准。
我想计算一些评估者间可靠性的度量,但我预计事件发生的时间会有一些不确定性;也就是说,我预计某个编码员可能会编码,例如,某个特定动作开始的时间比其他编码员认为的开始晚四分之一秒。这些是罕见的事件,如果有帮助的话;通常事件之间至少有几秒钟(数百个视频帧)。
有没有一种很好的方法来评估评估者间的可靠性,同时考虑这两种协议和分歧:(1)评估者是否同意发生的事件(如果有的话),以及(2)他们是否同意事件发生的时间?第二个对我来说很重要,因为我有兴趣查看这些事件相对于对话中发生的其他事情的时间,比如人们在说什么。
我所在领域的标准做法似乎是将事物划分为时间片,例如 1/4 秒左右,聚合每个编码器每个时间片报告的事件,然后计算 Cohen 的 kappa 或一些类似的度量。但是切片持续时间的选择是临时的,我对事件时间的不确定性不太了解。
到目前为止,我最好的想法是我可以计算出某种可靠性曲线;像 kappa 之类的东西,作为窗口大小的函数,我认为在该窗口中两个事件同时被编码。我真的不确定从那里去哪里,虽然......