我正在研究 StackExchange。StackExchange 的管理层已经(由于不明原因)解调了一个版主,现在网络着火了。
目前很多版主因为不满而辞职或暂停活动。我希望收集和分析有关这些辞职的数据。我想知道不满意是增加还是减少,以及这是否具有统计学意义。
- 我可以进行什么样的测试来发现这一点?特别是我需要一些关于如何分析/建模/定义这种增加的指导(问题是我没有可以适应事件时间的简单线性模型,它可能是非线性的,所以如何处理)。
我计划使用这封请愿信和这份辞职清单来定义事件。我怎样才能将所有这些组合成一个模型?
对于数据戳,我正在考虑使用元站点上的帖子,而不是在文本中查找它。
我希望收集的事件类型,因为可能更多的数据可能让我在测试中拥有更多的权力?
我正在考虑创建类似于表格的东西,如下所示:
Id Moderator Event-Type Date-stamp 1 Monica Cellio Fired Sep 27 2 Glen_b diamond removed Oct 9 at 0:53 3 Gung suspending activity Oct 18 at 1:32 4 whuber weekly strike Oct 18, 25, ...
理想情况下,我不会使表格完整,因为这对于数百个事件来说是很多工作,而是做一些随机抽样之类的事情(例如,挖掘像Gung's或GlenB's 的帖子或像Whiber's这样的评论)。所以这必须是我要应用的模型/测试的考虑因素。
部分结果/工作
根据评论,我对请愿信进行了一些初步解析,结果如下图:
library(XML)
u <- 'https://dearstackexchange.com/'
html = htmlTreeParse(readLines(u), useInternal = TRUE)
dates = unlist(xpathApply(html, '//small', xmlValue))
dates <- text[-length(text)] # remove final value
times <- 5+(as.numeric(strptime(dates, "%b %d")) - as.numeric(strptime("Oct 5", "%b %d")) )/24/3600
t <- table(times)
plot(t, xlab = "date (month October)", ylab = "number of signatures")
我们在 10 月 7 日看到这个签名高峰,然后下降。这并不奇怪,并且与 gridAlien 在他/她/他们的帖子中描述的初始射击有关。但到月底仍有剩余的签名。这个数字是增加还是减少?