我想知道是否有人对分析以下数据的最佳方法有一些新颖的见解。这个问题我已经在脑海里思考了一段时间,所以我想我会在这里问。我有看起来像这样的数据:
day event actor recipient
995 8 128 G J
996 8 129 G K
997 8 130 G B
998 8 131 B G
999 8 132 H G
1000 8 133 G H
1001 8 134 E G
1002 8 135 G J
1003 8 136 B H
1004 8 137 G H
1005 8 138 G H
1006 8 139 B J
1007 9 1 D J
1008 9 2 A J
1009 9 3 A J
1010 9 4 H J
1011 9 5 A J
1012 9 6 D H
1013 9 7 A F
1014 9 8 D J
1015 9 9 A H
1016 9 10 D J
1017 9 11 A J
1018 9 12 F J
1019 9 13 F J
1020 9 14 F H
1021 9 15 F G
1022 9 16 F H
1023 9 17 C F
1024 9 18 C G
1025 9 19 D H
您在这里看到的是 R 数据框的摘录。第一列是 df 的行号,然后是四个变量。这些数据从第 1 天开始,到第 22 天结束。每天有 13 到 215 个“事件”——每个事件都是一个单独的行为事件。编号较大的事件发生的时间晚于编号较早的事件。个人处于“演员”和“接受者”变量中。数据在此处以 csv 格式提供:
有 11 个人 (A - K)。您会注意到的一件事是,收件人往往在字母表中较低,而演员往往在字母表中较高。
我有兴趣制定一种方法来解决的一个关键问题是,看看如果一个人最近成为了接受者,成为演员的可能性是否会增加。您可以在第 997 行看到 GB,然后是 BG,然后是 HG 和 GH。个人接收者不必出现在下一行即可算作演员出现的可能性增加 - 我对这种事件发生概率的衰减感兴趣(但不会持续到第二天) .
此外,我不认为这对所有人都是正确的,所以我热衷于测试它对哪些人是正确的。
最后,我很想知道最近成为收件人但现在是演员的个人是否经常与比自己更高或更低字母的个人配对。
我希望这些问题是清楚的,有意义的。我显然不希望得到全面的分析。但我很想听听这种分析的想法。我相信检查一些马尔可夫过程可能有用,但我有兴趣了解其他想法。