Twitter 数据和回归时间序列

机器算法验证 回归 时间序列
2022-04-05 18:32:50

大约 6 个月以来,我每天都在收集 30 个不同 Twitter 帐户的新关注者数量,我知道他们开始关注的确切时间。在此期间,我也一直在收集这些帐户的所有推文。

我对某些自变量(推文率、提及次数、转发次数、链接、推文情绪)是否与关注者的增加(或因变量)感兴趣。

我想知道这个时间序列数据的合适方法是什么。

例如,我可以使用线性回归来查看每天的推文总量是否可以预测每天的新关注者数量。但是,我认为这不合适,因为人们采取的行动不会立即影响关注者的数量。但我不确定时间延迟是多少,或者是否有一种不同的方法更适合这种数据和我要问的问题。我正在使用 R。

1个回答

您可以使用 ARMAX 模型将新关注者的数量 (y) 与每天的推文数量 (x) 联系起来。该模型将建议适当的延迟和响应机制。应注意确保正确识别和纳入异常值/电平变化/本地时间趋势。可能还需要考虑一周中的特定日子、一个月中的特定日子、假期影响等。