我正在探索一些 Stack Overflow 数据。在其他变量中,我有关于提问时间和回答时间的变量。
我有兴趣根据编程语言预测提问者可能期望等待多长时间才能回答他们的问题。
我有 26k 观察结果,分为 10 种语言。在格式方面,我可以将提问和回答的问题之间的时间差格式化为整数,并根据需要通过编程语言对数据进行分组。
理想情况下,我的模型的输出将非常简单:只是一个整数/浮点数,表示用户通常希望在他们的问题得到回答之前等待的分钟数。
什么是最合适的建模/机器学习技术(最好是在 Python 中)?我在StatsModels中探索了各种 GLM 类型,但找不到明显合适的东西。由于数据既不是连续的也不是线性的,我不认为 OLS 是正确的。数据显然也不是二元的,所以逻辑回归已经出局了。由于我只是将时间差异作为整数处理,我认为这也不需要时间序列分析模型。
作为记录,这只是一个基于公开可用的 Stack Overflow 数据转储的个人项目。我与 Stack Overflow 没有任何关系。