如果您不知道要为其获取参数的函数,回归模型如何有用?
我看到一项研究说,母乳喂养孩子的母亲在以后的生活中患糖尿病的可能性较小。该研究来自对大约 1000 名母亲的调查,并控制了其他因素,并使用了对数线性模型。
现在这是否意味着他们认为所有决定糖尿病可能性的因素都符合一个很好的函数(可能是指数),该函数巧妙地转换为一个带有对数的线性模型,并且母乳喂养的女性是否具有统计学意义?
我肯定错过了一些东西,但是,他们到底是怎么知道这个模型的?
如果您不知道要为其获取参数的函数,回归模型如何有用?
我看到一项研究说,母乳喂养孩子的母亲在以后的生活中患糖尿病的可能性较小。该研究来自对大约 1000 名母亲的调查,并控制了其他因素,并使用了对数线性模型。
现在这是否意味着他们认为所有决定糖尿病可能性的因素都符合一个很好的函数(可能是指数),该函数巧妙地转换为一个带有对数的线性模型,并且母乳喂养的女性是否具有统计学意义?
我肯定错过了一些东西,但是,他们到底是怎么知道这个模型的?
它有助于将回归视为真实形式的线性近似。假设真正的关系是
用因素解释。在零附近的一阶泰勒近似是:
其中是近似误差。现在表示和你有一个回归:
因此,尽管您不知道真正的关系,但如果很小,您会得到近似值,您仍然可以从中推断出有用的结论。
答案的另一面是 mpiktas 的答案的补充,但到目前为止尚未提及,是:
“他们没有,但一旦他们假设某种模型结构,他们就可以根据数据检查它”。
可能出错的两个基本问题是: 函数的形式,例如它在日志中甚至不是线性的。因此,您首先要根据预期值绘制适当的残差。或者条件分布的选择,例如观察到的计数相对于泊松过度分散。因此,您将针对同一模型的负二项式版本进行测试,或者查看额外的协变量是否解释了额外的变化。
您还需要检查异常值、有影响的观察结果以及许多其他内容。阅读有关检查此类模型问题的合理地点是 Cameron 和 Trivedi 1998 的第 5 章。(对于面向流行病学的研究人员来说,肯定有一个更好的起点——也许其他人可以提出建议。)
如果这些诊断表明模型无法拟合数据,您将更改模型的相关方面并重新开始整个过程。
一个很好的第一个问题!我同意 mpiktas 的回答,即简短的回答是“他们没有,但他们希望对正确的模型有一个近似值,可以给出大致正确的答案”。
用流行病学的术语来说,这种模型的不确定性是所谓的“残余混杂”的来源之一。请参阅Steve Simon 的页面“什么是残余混杂?” 一个好的简短描述,或Heiko Becher 1992 年在医学统计学中的论文(订阅要求)以获得更长、更数学的处理,或Fewell、Davey Smith 和 Sterne 在美国流行病学杂志上的最新论文(订阅要求)。
这是小影响的流行病学研究困难且研究结果经常引起争议的原因之一——如果测量的影响大小很小,则很难排除残余混杂或其他偏差来源作为解释。
George Box有一句名言“本质上,所有模型都是错误的,但有些模型是有用的” 。在拟合这样的模型时,我们尝试(或应该)考虑数据生成过程以及物理、现实世界、响应和协变量之间的关系。我们尝试在适合数据的模型中表达这些关系。或者换一种说法,就是与数据一致。因此,产生了一个经验模型。
它是否有用是稍后确定的——它是否给出了良好、可靠的预测,例如,对于不习惯拟合模型的女性?模型系数是否可解释并具有科学用途?效果大小有意义吗?