如何改进我对声誉对投票影响的分析?

机器算法验证 数据可视化 大数据 固定效应模型
2022-01-19 09:55:21

最近,我对声誉对赞成票的影响进行了一些分析(请参阅博客文章),随后我对可能更具启发性(或更合适)的分析和图形提出了一些问题。

所以有几个问题(并且随时特别回答任何人并忽略其他问题):

  1. 在目前的化身中,我并不是说以职位编号为中心。我认为这会在散点图中给出负相关的错误外观,因为在帖子计数的低端有更多帖子(你会看到这在 Jon Skeet 面板中不会发生,仅在凡人用户中)控制板)。不将帖子编号居中是否不合适(因为我的意思是使每个用户的平均得分居中)?

  2. 从图中可以明显看出,分数是高度右偏的(平均居中并没有改变这一点)。在拟合回归线时,我拟合了线性模型和使用 Huber-White Sandwhich 误差的模型(通过rlmMASS R 包中),它对斜率估计没有任何影响。我应该考虑对数据进行转换而不是稳健回归吗?请注意,任何转换都必须考虑到 0 和负分的可能性。或者我应该使用其他类型的模型来计算数据而不是 OLS?

  3. 我相信最后两个图形通常可以改进(并且也与改进的建模策略有关)。在我(厌倦)看来,我怀疑声誉效应是否真实,它们会在海报历史的早期实现(我想如果是真的,这些可能会被重新考虑“你给出了一些很好的答案,所以现在我会支持你所有的帖子”而不是“总分的声誉”效果)。在考虑过度绘图的同时,如何创建图形来证明这是否属实?我想也许证明这一点的一个好方法是拟合表格的模型;

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1X1)γk(ZkX1)+ϵ

其中当前散点图 _邮政编号等)。分别是大截距和误差项。然后我将检查估计的斜率以确定声誉效应是否在海报历史的早期出现(或以图形方式显示它们)。这是一个合理(和适当)的方法吗?Yscore - (mean score per user)X1post numberZ1ZkZ111 through 25Z2126 through 50β0ϵγ

将某种类型的非参数平滑线拟合到像这样的散点图(例如黄土或样条线)似乎很流行,但我对样条线的实验并没有揭示任何启发性(在海报历史早期的任何积极影响的证据都是轻微和喜怒无常的到我包括的样条数)。由于我假设效果很早就发生了,我的建模方法是否比样条曲线更合理?

另请注意,尽管我已经挖掘了所有这些数据,但仍有许多其他社区需要检查(有些像超级用户和 serverfault 也有类似的大样本可供提取),因此将来提出建议是很合理的我使用保留样本来检查任何关系的分析。

4个回答

这是一次勇敢的尝试,但仅凭这些数据,就很难或不可能回答您关于“声誉对投票的影响”的研究问题。问题在于分离其他现象的影响,我将其与如何解决它们的简要说明一起列出。

  • 学习效果随着声望的提高,经验也在提高;随着经验的增加,我们希望一个人发布更好的问题和答案;随着他们质量的提高,我们希望每个帖子获得更多的选票。可以想象,在分析中处理此问题的一种方法是识别在多个 SE 站点上活跃的人在任何给定的站点上,他们的声誉增长速度都会比他们的经验增长得慢,从而为区分声誉和学习效果提供了一个句柄。

  • 上下文的时间变化。 这些是无数的,但显而易见的将包括

    • 选民人数随时间的变化,包括总体上升趋势、季节性趋势(通常与学术周期相关)和异常值(由外部宣传引起,例如指向特定线程的链接)。 在评估任何个人的声誉趋势时,任何分析都必须考虑到这一点

    • 社区风俗随时间的变化社区,以及它们如何互动、演变和发展。随着时间的推移,他们可能倾向于或多或少地投票。 任何分析都必须评估这种影响并将其考虑在内

    • 时间本身。 随着时间的推移,较早的帖子仍然可供搜索并继续获得选票。因此,caeteris paribus较旧的帖子应该比新的帖子产生更多的选票。(这是一个强大的影响:一些在每月声誉联盟中一直很高的人全年都没有访问过这个网站!)这会掩盖甚至颠倒任何实际的积极声誉效应。 任何分析都需要考虑每个帖子在网站上出现的时间长度

  • 主题人气。 一些标签(例如,) 比其他人更受欢迎。因此,一个人回答的问题种类的变化可能会与时间变化相混淆,例如声誉效应。因此,任何分析都需要考虑所回答问题的性质。

  • 视图[添加为编辑]。不同数量的人出于各种原因(过滤器、链接等)查看问题。答案获得的投票数可能与观看次数有关,尽管人们预计随着观看次数的增加比例会下降。(问题在于有多少人真正对这个问题感兴趣,而不是原始数字。我自己的 - 轶事 - 经验是,我在许多问题上收到的大约一半的赞成票来自前 5-15意见,尽管最终这些问题被查看了数百次。)因此,任何分析都需要考虑意见的数量,但可能不是以线性方式。

  • 测量困难。 “声誉”是针对不同活动获得的投票总和:初始声誉、答案、问题、批准问题、编辑标签 wiki、否决和被否决(按价值降序排列)。因为这些组件评估不同的事物,并且并非都在社区选民的控制之下,所以应该将它们分开进行分析“声誉效应”可能与对答案的赞成票有关,也可能与对问题的赞成票有关,但不应影响其他声誉来源。 绝对应该减去初始声誉(但也许可以用作一些初始经验的代理)。

  • 隐藏的因素。 可能还有许多其他无法衡量的混杂因素。例如,参加论坛有各种形式的“倦怠”。在最初的几周、几个月或几年的热情之后,人们会做什么?一些可能性包括关注罕见、不寻常或困难的问题;只回答未回答的问题;提供更少但质量更高的答案;等等。其中一些可能会掩盖声誉效应,而另一些可能会错误地与声誉效应混淆。 这些因素的代表可能是个人参与率的变化:它们可能表明该人帖子性质的变化。

  • 子社区现象。 仔细查看统计数据,即使是在非常活跃的 SE 页面上,也表明只有相对少数的人完成了大部分的回答和投票。一个小到两三个人的小集团,就能对声望的增长产生深远的影响。该站点的内置监视器将检测到一个两人集团(并且该站点上存在一个这样的集团),但可能不会检测到更大的集团。(我不是在谈论正式的勾结:人们甚至可以在不知情的情况下成为此类集团的成员。) 我们如何将明显的声誉效应与这些不可见、未被发现的非正式集团的活动区分开来? 详细的投票数据可以用于诊断,但我认为我们无法访问这些数据。

  • 数据有限。要检测声誉效应,您可能需要关注拥有数十到数百个帖子的个人(至少)。这使当前的人口减少到不到 50 人。尽管存在变异和混淆的所有可能性,但除非它们确实非常强大,否则无法梳理出显着的影响。 解决方法是使用来自其他 SE 站点的记录来扩充数据集

考虑到所有这些复杂性,应该清楚的是,博客文章中的探索性图形几乎没有机会揭示任何东西,除非它非常明显。什么都没有发生在我们身上:正如预期的那样,数据是混乱和复杂的。现在建议对图表或已提出的分析进行改进还为时过早:在解决这些基本问题之前,增量更改和附加分析将无济于事

计量经济学家在格兰杰因果关系的框架内研究了类似的问题如果你有两个系列,YtZt,您可以运行向量自回归模型,它以最简单的形式出现,具有单个滞后看起来像Yt=a0+a1Yt1+a2Zt1+ϵt,Zt=b0+b1Yt1+b2Zt1+δt. 如果你看到那个说a2很重要,那么您可以声称Z(格兰杰-)原因Y: 添加有关信息Z提高模型的精度Y. 在这里,你的时间t将是帖子编号,变量显然是声誉和分数。两者都是非平稳的,所以更认真地摆弄数据,比如取增量ΔYt=YtYt1代替Yt在上述等式中将被要求。(注意,你可能会失去 normal 和 normal-basedF或者χ2具有非平稳数据的分布,以及与趋势变量的收敛速度,如果将它们包括在分析中,可能是T1甚至更快,而不是T1/2我们大多数人都习惯了中心极限定理。你需要非常小心这些。)所以我猜如果Yt是答案分数,并且Zt是名声,那么显然a0是平均分,a1是这个人如何学会写出更好的答案,以及a2是他们的声誉如何先于他们的话(假设模型假设得到满足等)

关于第 1 点:如果您手动进行固定效应,则应该将响应变量和解释变量都居中。面板数据回归包会为您完成此操作,但官方计量经济学看待事物的方式是从“合并”回归中减去“中间”回归(​​参见Wooldridge 的黑皮书;我没有检查第二版,但我通常认为第一版是对计量经济学面板数据的最佳教科书式描述)。

关于您的第 2 点:当然 Eicker/White 标准误差不会影响您的点数估计;如果他们这样做了,那将表明执行不正确!在时间序列的背景下,一个更合适的估计是Newey 和 West (1987)尝试转换可能会有所帮助。我个人是Box-Cox 转换的忠实粉丝,但在您正在进行的分析的背景下,很难干净利落地完成。首先,您需要在形状参数之上添加一个移位参数,而众所周知,在这样的模型中很难识别移位参数。其次,您可能需要针对不同的人、和/或不同的帖子和/或......(所有的地狱都崩溃了)使用不同的移位/形状参数。计数数据也是一种选择,但在均值建模的背景下,泊松回归与对数变换一样好,但它强加了方差 = 均值的笨拙假设。

PS你可能会用“纵向数据”和“时间序列”来标记它。

绘图的其他几处更改:

  1. 答案分数与以前的声誉的分位数带。(地块 1 和 3)
  2. Skeet 与其他人的密度图,按 # 后分层(图 3)
  3. 考虑按竞争职位的数量进行分层
  4. 按时间分层(在提出问题后很长时间内可能会继续获得积分)

对此进行建模将更加困难。您可以考虑泊松回归。不过,坦率地说,开发好的情节是培养洞察力和技能的更好方法。在您更好地了解数据后开始建模。

哇那里。(我的意思是,以一种好的方式;-))在进一步研究模型之前,您需要解决数据的情况。

我没有看到这个情节中间非常奇特的曲线的解释:http: //stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

看到这样的曲线让我觉得这些点有些奇怪——它们不是相互独立的,而是反映了对同一来源的一些观察序列。

(小注:将情节命名为“相关性……”具有误导性。)