让响应为和协变量。对于被限制为非负的计数数据,我们有泊松回归或负二项式回归。现在,我考虑响应是一种积分分数,范围从负整数到正整数,并且我们不知道响应的界限的情况。例如,一个人在过去十年中赢得的比赛数量,如果他/她输多于赢,则可能为负数。
使用具有正常误差的线性回归是否仍然合理?如果没有,我应该寻找任何替代方案吗?提前致谢。
让响应为和协变量。对于被限制为非负的计数数据,我们有泊松回归或负二项式回归。现在,我考虑响应是一种积分分数,范围从负整数到正整数,并且我们不知道响应的界限的情况。例如,一个人在过去十年中赢得的比赛数量,如果他/她输多于赢,则可能为负数。
使用具有正常误差的线性回归是否仍然合理?如果没有,我应该寻找任何替代方案吗?提前致谢。
作为替代方案,我们会尝试使用Skellam 分布作为我们的响应分布。(即我们的结果变量是两个泊松分布的随机变量之间的差异)。它有时用于预测足球/橄榄球的净胜球数。请注意,只需要泊松模型并计算它们的差异可能更简单。SE.SO 有一个相关主题:如何拟合 Skellam 回归?.
理想情况下,您将使用具有离散分布的回归模型,并支持响应变量的整数。这可以通过连续分布来近似,只要模型中的标准误差(即误差项的标准差)与整数之间的单位间隔相比不会太小(这样连续密度变化不大整数之间)。
如果您愿意,您可以采用使用连续响应分布(例如,来自高斯线性模型)的回归模型,然后通过以下方式“离散化”响应分布:
例如,在高斯线性模型中,没有似然函数:
您将拥有“离散化”版本:
两种情况下的 MLE 都将非常相似,只要远大于 1。离散化版本的主要缺点是 MLE 不再是 OLS 估计器并且没有封闭形式,因此产生的理论性质处理起来有点棘手(但肯定不是不可能)。