我是一名网络开发人员和新手统计学家。
我的数据看起来像这样
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
我试图将 y1 预测为 x 变量的乘积。但是,我有理由相信多个 x 变量对 y1 的影响可能存在滞后,即第 1 周的 x 变量对受试者 A 的影响 y1 在第 2 周对受试者 A 的影响。
请注意,并非所有受试者每周都会有数据点(事实上大多数不会)。受试者往往会有第 1、2、3、4 周的数据点,然后下降,直到第 7、8、9 周才再次出现。鉴于我关于滞后的假设,我愿意将我的分析限制在我们拥有前 N 周数据的数据点上。
就像我说的,我是新手,不确定处理这种形式的数据集的最佳方法。我希望在 R、Python 或两者的某种组合中进行这种分析。我认为本周的 x 变量不会有任何影响。我认为它们会产生一些影响,也许比前几周更大。我只是相信前几周会产生一些影响。
我预计会有两到三周的延迟。为了提供一些背景信息,我在这里尝试的分析与判断在线流量的质量有关。每周我都会对我发送到给定网站的特定用户流的质量进行评分。我正在尝试查找辅助指标,例如浏览器分布、重复点击百分比等,这将使我能够提前预测该分数。