将变量作为计数数据进行缩放 - 正确与否?

机器算法验证 回归 负二项分布 计数数据
2022-03-22 21:04:43

这篇论文中(可通过 PubMed Central 免费获得),作者使用负二项式回归对 0-40 分的 10 项筛选工具的得分进行建模。此过程假定计数数据,这显然不是这里的情况。我想听听您对这种方法是否可以接受的看法,因为我有时会在工作中使用相同或类似的工具。如果没有,我想知道是否有任何可接受的替代方案。更多详情如下:

使用的量表是酒精使用障碍识别测试 (AUDIT),这是一个 10 项问卷,旨在作为酒精使用障碍和危险/有害饮酒的筛查工具。该仪器的评分范围为 0 到 40,结果通常严重左偏。

据我了解,使用计数数据假设所有“计数”的值都是相互独立的——每天进入急诊室的患者、某一组的死亡人数等——它们都是相互独立的,虽然取决于基础变量。此外,我认为使用计数数据时不能有最大允许计数,尽管我认为当理论最大值与数据中观察到的最大值相比非常高时,可以放宽这个假设?

使用 AUDIT 量表时,我们没有真正的计数。我们有 10 个项目,总分最高为 40,尽管在实践中很少看到高分。项目的分数自然是相互关联的。

因此违反了使用计数数据所需的假设。但这仍然是一种可接受的方法吗?违反假设的严重程度如何?是否存在某些情况下可以认为这种方法更可接受?这种方法是否有任何不涉及将比例变量减少到类别的替代方法?

2个回答

审计工具本质上是李克特量表。一组问题(李克特题)的答案通常采用五分制,旨在解决一些潜在的现象。然后将对这组问题的回答总和(李克特量表)用作潜在现象的衡量标准。虽然李克特项目通常在“非常不同意”到“非常同意”量表上,但在这个“识别测试”中测量“酒精使用障碍”倾向的应用程序简单。

正如李克特量表维基百科页面中所指出的那样,“单个李克特项目是否可以被视为区间级数据,或者它们是否应该被视为有序分类数据是文献中存在相当大分歧的主题,人们坚信什么是最适用的方法。” 这场争论可能可以追溯到李克特首次提出量表以来的 80 多年中的大部分时间:量表上的每一步是否相等,无论是在构成量表的项目内还是在构成量表的项目之间?该问题已在 Cross Validated 上得到解决,正如对这个问题的回答一样,这是该网站上最早提出的问题之一。

如果您接受秤具有统一的步骤(或对于手头的应用程序来说足够接近统一,可能通过添加 10 个不同的项目来平均化,如在 AUDIT 中)的想法,那么几种分析方法是可能的。一种是将尺度上的响应视为一系列选择或未选择向上移动的步骤,每个步骤向上移动的概率相同。

这允许人们将“ n 点李克特量表数据视为来自二项式过程的 n 次试验”,就像 @MikeLawrence 在 2010 年提出的问题一样。尽管对这个问题的回答并不十分支持这个想法,但今天不难发现2014 年的一项研究成功地使用并扩展了这种方法,以区分具有不同二项式概率的亚群。尽管二项式过程通常用于对计数数据进行建模,但它因此可用于对个人按照“酒精使用障碍”规模采取的步骤的数量、计数进行建模。

正如@Scortchi 在对第二段中链接的问题的回答中指出的那样,二项式模型的一个限制是它在响应的均值和方差之间施加了特定的关系。负二项式消除了该限制,失去了简单二项式模型提供的简单解释。在分析中,需要拟合的额外参数仅占用了一个额外的自由度。相比之下,试图为 40 个李克特项目步骤中的每一步指定不同的概率并将它们的总和纳入李克特量表将是令人生畏的。

正如@MatthewGraves 在他对这个问题的回答中指出的那样,负二项式模型是否合适最好通过检查残差来回答。在开发 AUDIT 的原始研究中,40 分制的 8 分或更高的值对于区分 6 个不同国家被诊断为“危险或有害饮酒”的人具有相当合理的特异性和敏感性。因此,类似于上面链接的 2014 年研究,基于高风险和低风险人群的二项式模型可能会更好。

那些对 AUDIT 感兴趣的人应该特别检查原始研究。例如,尽管早晨饮酒的需求似乎与饮酒频率完全不同,但正如@SeanEaster 推测的那样,早晨饮酒与酒精摄入量的衡量标准的加权平均相关性为 0.73。(对于有酒精使用障碍朋友的人来说,这个结果并不奇怪。)AUDIT 似乎是开发一种可以在多种文化中可靠使用的工具所需的权衡取舍的一个很好的例子。

对于“传染性”离散事件,负二项分布是首选。离散事件是独立的时,使用泊松分布。这些分布也很容易截断,通过替换x=40用一个点x40点,基本上。

作为一般评论,不同风格的回归具有不同的参数先验(即正则化)和不同的噪声模型。标准最小二乘回归具有高斯噪声模型,负二项式回归具有负二项式噪声模型,依此类推。回归模型是否合适的真正检验是残余噪声是否具有预期分布。

因此,您可以对数据应用负二项式回归,计算残差,然后将它们绘制在负二项式概率图上,从而了解模型是否合适。如果噪声以其他方式构造,那么我们需要寻找更接近该结构的噪声模型。

从生成模型到噪声结构的推理是有帮助的——如果我们知道数据是乘法而不是加法,例如,我们使用对数正态而不是正态——但是如果预期的生成模型和噪声结构不一致,跟着数据走,而不是期望。