你会如何向没有统计背景的人解释广义线性模型?

机器算法验证 广义线性模型 沟通
2022-02-17 00:37:25

我总是很难向没有统计背景的观众解释统计技术。如果我想向这些观众解释 GLM 是什么(不抛出统计术语),最好或最有效的方法是什么?

我通常用三个部分来解释 GLM——(1)作为响应变量的随机分量,(2)作为线性预测变量的系统分量,以及(3)作为连接(1)和(2)。然后我将举一个线性或逻辑回归的例子,并解释如何根据响应变量选择链接函数。因此,它充当连接两个组件的关键。

2个回答

如果听众真的没有统计背景,我想我会尽量简化解释。首先,我会在板上画一个坐标平面,上面有一条线,如下所示:

y = mx + b

你演讲中的每个人都会熟悉一条简单线的方程式, y=mx+b,因为那是在小学学到的东西。所以我会在图纸旁边显示它。但是,我会倒着写,如下所示:

 mx+b=y

我会说这个方程是简单线性回归的一个例子。然后,我将解释您(或计算机)如何将这样的方程拟合到数据点的散点图中,如下图所示:

散点图

我想说的是,我们正在使用我们正在研究的有机体的年龄来预测它有多大,并且我们得到的线性回归方程(如图所示)可以用来预测有机体有多大如果我们知道它的年龄。

回到我们的一般方程 mx+b=y,我会说 x 是可以预测y 的变量,所以我们称它们为predictorsy 通常称为响应

然后我再解释一下,这是一个简单的线性回归方程的例子,实际上还有更复杂的变体。例如,在称为逻辑回归的变体中,y 只允许为 1 或 0。如果您试图预测“是”或“否”的答案,例如某人是否患有疾病,则可能需要使用这种类型的模型。另一个特殊的变种是称为泊松回归的东西,它用于分析“计数”或“事件”数据(除非真的有必要,否则我不会进一步深入研究)。

然后我会解释线性回归、逻辑回归和泊松回归实际上都是更通用方法的特殊示例,称为“广义线性模型”。“广义线性模型”的伟大之处在于,它们允许我们使用可以取任何值的“响应”数据(比如线性回归中有机体有多大),只取 1 或 0(比如某人是否有逻辑回归中的疾病),或进行离散计数(如泊松回归中的事件数)。

然后我会说,在这些类型的方程中,x(预测变量)通过统计学家称之为“链接函数”的东西连接到 y(响应)。我们在 x 与 y 不以线性方式相关的情况下使用这些“链接函数”。

无论如何,这是我在这个问题上的两分钱!也许我提出的解释听起来有点虚伪和愚蠢,但如果这个练习的目的只是为了让观众了解“要点”,那么这样的解释也许还不错。我认为重要的是要以直观的方式解释这个概念,并且避免使用诸如“随机分量”、“系统分量”、“链接函数”、“确定性”、“logit 函数”等词。如果你与真正没有统计背景的人交谈,例如典型的生物学家或医生,他们的眼睛只会在听到这些话时变得呆滞。他们不知道概率分布是什么,他们从未听说过链接函数,也不知道什么是“logit”

在您对非统计受众的解释中,我还将重点关注何时使用何种模型。我可能会谈论允许在等式的左侧包含多少个预测变量(我听说过的经验法则不超过您的样本量除以 10)。最好包括一个包含数据的示例电子表格并向观众解释如何使用统计软件包来生成模型。然后,我将逐步查看该模型的输出,并尝试解释所有不同的字母和数字的含义。生物学家对这些东西一无所知,他们更感兴趣的是学习何时使用什么测试,而不是真正了解 SPSS GUI 背后的数学!

我将不胜感激任何关于我提出的解释的意见或建议,特别是如果有人注意到错误或想出更好的解释方法!

我不会将响应称为随机组件。它是确定性成分和随机成分的组合。

我想我会这样描述广义线性模型。我们有一个响应变量和一组可以帮助预测响应的相关变量。然而,响应和预测变量不是线性相关的。链接函数提供响应的转换,以便转换后的响应与预测变量线性相关。例如,在逻辑回归中,预测变量可以是可以在整个实线上取值的连续变量。但反应是一个概率(例如临床试验中成功结果的概率)。因此响应被限制在 0 和 1 之间。逻辑回归中的链接函数称为 logit 函数。它等于log(p/(1p)). 您可以看到 logit 函数将一个变量约束为[0,1]到一个可以在整个实线上取值的变量。在这种情况下,链接函数使响应与预测变量兼容,因此可以使其成为预测变量加上随机分量的线性函数。