如何处理计数数据(分类数据),当它已被转换为速率?

机器算法验证 分类数据 计数数据 发病率比
2022-03-09 07:53:13

我正在处理疾病感染数据,我对是否将数据处理为“分类”或“连续”感到困惑。

  • 《感染人数》
    • 在特定时间段内发现的感染病例数,该计数由分类数据生成(即标记为“感染”的患者数)
  • 《病床日》

    • 该病房中所有患者在病房中停留的总天数总和,同样,该计数是根据分类数据生成的(即标记为“留在该特定病房”的患者数)
  • “每病床日的感染人数”

    • “感染计数”/“病床天数”最初都是计数数据,但现在变成了比率

问题:

  • 我可以在这里使用卡方来评估“每病床日感染数”的差异是否具有统计学意义?

更新

我发现我可以比较发病率(或称其为感染率),但可以进行“发病率差异”(IRD)或“发病率比”(IRR)之类的事情。(我从这里找到的)

  • IRD 和 t 检验有什么区别?
  • 是否有任何补充 IRR 的统计测试?
4个回答

我不太确定您的数据是什么样的,或者您的确切问题是什么,但我假设您有一个包含以下标题和类型的表格:

病房(分类)、感染(整数)、病床天数(整数或连续)。

你想知道不同病房的感染率是否有统计学差异?

一种方法是使用泊松模型:

感染 ~ 泊松(病床天数 * 病房感染率)

这可以通过使用具有日志链接功能的 Poisson glm 和偏移量中的病床日日志来实现。在 R 中,代码如下所示:

glm(infections ~ ward + offset(log(patient-bed-days)), family=poisson())

对我来说,在这里使用卡方检验听起来一点也不合适。

我猜你想要做的是:你有不同的病房或治疗或任何其他类型的名义变量(即组)来划分你的数据。对于这些组中的每一个,您都收集了感染计数患者卧床天数,以计算每个患者卧床天数的感染知道你想检查组之间的差异,对吧?

如果是这样,根据 Srikant Vadali 帖子中的原因(如果假设方差同质性和也满足可比较的组大小)并且beginner应该添加标签。

如果您正在考虑对这些数据进行泊松或相关回归(以您的结果变量作为比率),请记住为病床天数包括一个偏移项,因为它在技术上成为您计数的“暴露”。

但是,在这种情况下,您可能还需要考虑仅使用感染计数(而不是感染率)作为因变量,并将患者卧床天数作为协变量。我正在研究一个具有类似计数与速率决策的数据集,似乎将因变量转换为速率会导致可变性降低、偏度增加和成比例的标准偏差增大。这使得检测任何显着影响变得更加困难。

还要注意您的数据是零截断还是零膨胀,并进行适当的调整。

从技术纯粹主义者的角度来看,您不能因为“每个病床日的感染率”不是一个连续变量。例如,一个不合理的值永远不会出现在您的数据集中。但是,您可以忽略此技术问题并进行可能适合您的上下文的任何测试。以此类推,收入水平是离散的,但几乎每个人都将它们视为连续的。

顺便说一句,你为什么要做卡方并不完全清楚,但我假设有一些背景背景为什么这对你有意义。