带有真实世界应用程序的 Stats 101 问题

机器算法验证 统计学意义
2022-04-05 12:46:19

对于这个董事会来说,这可能是一个过于基本的问题——但另一方面,我知道我会得到很好的答案。顺便说一句,“Stats 101”是一个隐喻。我在为我的工作寻求帮助,而不是我的家庭作业!

我正在查看医院的综合财务数据。我已经确定了两个医院系统与同行相比积累了异常大的运营盈余(利润)——当非营利医院的标准为 3% 时,在 8% 到 12% 的范围内。扣除费用后,这相当于数亿美元。我创建了一个指标,将这些利润除以年度病例调整入院人数,结果否定了患者类型的数量或混合作为差异的原因。我也看了费用,他们和同行医院差不多,所以低费用也不是解释。这表明定价是差异的其余原因。

只有汇总数据可用 - 我没有案例级别的数据。通过简单地对我列出的 85 家医院进行排名,这两家医院的年度“每位患者的利润”就位居榜首。这两家医院之间的差异足够大,我确信如果我进行了正确的测试,差异将具有统计学意义。我想这样做 - 表明这不太可能是偶然变化。

你能推荐在这些数字上运行的最佳测试吗?顺便说一句,我无法通过我的雇主访问 SPSS 或 SAS,所以我可能会在 Excel 或 Access 中尝试这个。

3个回答

你可以做几件事来确认这些真的很奇怪。他们实际上可能不是,因为有人必须排名第一和第二。

(1) 将利润率表示为乘数 (1+rateOfReturn) 并绘制它们以查看它们是否遵循某种可能的分布(您可以从正态性的 QQ 图和 log(1+rateOfReturn) 上的 QQ 图开始-常态)。您的前 2 名很有可能符合对数正态分布。但也许不是,你正在做某事。

(2) 拟合一个多元回归模型(它位于 Excel 的数据分析插件中)以根据可能的影响因素预测回报率,例如病例数量、患者组合等。如果您的两家医院真的很不寻常,他们会有很大的回归残差。

在使用 Excel 进行此类操作之前,请先阅读电子表格上瘾页面。

无论您进行何种分析,您都会遇到的一个问题是,您首先将前 2 个确定为异常,然后想要测试它们。与您在查看数据之前提出问题相比,这总是会导致一些怀疑。

此外,您应该寻找其他可能的解释。您除以入院人数,这些医院的入院人数是否较小(偶然除以少量会使比率看起来更大)。还要看看医院的规模,小团体的总体统计数据比大团体的差异更大。如果你有几家大医院和几家小医院,那么由于偶然性和更高的变异性,一些小医院看起来会更大或更小。

鉴于所有这些,仍然可能存在一些可能性。如果您可以对分布应该是什么样子做出合理的假设,那么最简单的假设就会出现(但正常在这里似乎不合理)。如果没有明显的分布,那么您仍然可以估计一个。一种可能性是根据 83 个较低的值以及有 2 个较高的值这一事实来估计分布,logsplinefor 包R有一种可能的方法来做到这一点。然后你可以从这个大小为 85 的分布中生成随机样本(这假设所有医院都来自相同的分布,即相似的大小等),并在每个样本中比较前 2 个和其余的之间的距离,看看它与你的实际数据。

更好的是模拟决定有多少异常值的整个过程,然后执行整个过程来测试这些异常值,但这不太清楚如何自动化以及需要哪些假设。

很难对这个问题使用显着性检验(即,一个数据向量具有不寻常的观察结果)。但是,糟糕,当我以这种方式描述问题时,我有一个想法:

您想知道这些数据点是否是明显的异常值(即,从概念上讲,Mike Anderson 所说的)。最简单的方法是制作数据的箱线图,看看它们是否可以被视为异常值(即,它们是否在晶须之外)。Tukey (1977)之后,胡须延伸到中位数 +/- 3 倍的四分位距(有时您也会看到 1.5 倍的四分位距,但是,在 Tukey 1977 中,您发现两者,我倾向于使用更极端的标准来分类异常值)。

如果您的数据大致正常(使用直方图或 qq 图),您可以简单地使用标准正态分布来查看您的数据点是否为异常值。您需要将数据转换为z 分数(即,每个值减去均值除以均值)。如果 z 分数足够极端(对于 5% 的显着性异常值,极端值超过 1.95,或者对于 1% 的异常值,极端值超过 2.58),您甚至可以说这个数据点明显是一个异常值。这种方法在Tabachnik 和 Fidell中有所描述,我认为在第 4 章中。

更新:鉴于您的 N 为 85,也许最好只将非常罕见的情况视为异常值(即 z-score 比 3.29 更极端,指p<.001). 我会简单地在文本中写下有明显的异常值被删除并放在脚注中:这些案例的 z 分数非常高(高于 3.29,p < .001)。