自变量(正态)分布的逻辑回归

机器算法验证 回归 物流 正态分布 回归策略
2022-03-28 18:07:40

考虑逻辑回归,其中是因变量观测值,是自变量。Yi0,1XiR

然而,我们并没有观察到本身。相反,我们观察到一些参数向量\boldsymbol{\mu}_i并且我们知道分布F st F(X_i|\boldsymbol{\mu}_i)XiμiFF(Xi|μi)

Xi本身没有被观察到的情况下,我们如何执行逻辑回归?对于F一个一般分布,一种方法可能是为每个i采样来自F(Xi|μi)的许多值,并将它们全部放入回归模型中作为观察值。

F是一个正态分布,我们能更有效地做事吗?

2个回答

我认为您也可以采用最大似然方法,考虑到xi是您将可能性边缘化的潜在变量。

假设你通常的逻辑回归的可能性,如果你观察x值,是L(β,x,y)其中β是参数的向量(通常,L(β,x,y)=(11+eβx)y(11+eβx)1y)。

那么只观察μy的可能性是

L(β,y,μ)=EXFμ[L(β,y,X)]
总可能性只是所有观察到的可能性的乘积(yi,μi)

不幸的是,这些期望可能难以处理(也许对于简单的正态分布来说不是,但对我来说并不明显......),因此您可以通过 Monte Carlo 来估计它们。例如,采样并取的经验平均值。我不认为这相当于根据模拟数据并将它们放入模型中,但是看到链接会很高兴......xiFμiL(β,yi,xi)Fμi

另一种方法是使用EM 算法(其中是潜在变量)来最大化这种可能性,这肯定会提高计算效率。xi

我希望这会有所帮助...

概括问题中提出的引导方法,其中回归不尝试估计,而是确定分布如何导致逻辑回归参数的分布,可以使用边际最大似然估计,这是随机效应线性中常见的一种技术楷模。被最大化的可能性是 可能性但是现有的文献可能会给出一些启发——以及估计这个(或者更确切地说是XF

L(β)=iXP(yi|X,β)P(X|μi)X
Lβ最大化它)蒙特卡洛可能是一个不错的选择。在分布正常的情况下,可能有希望做一些更精确的事情。假设符号简单,(只是我不需要创建一个新变量), 因为,这个积分被称为逻辑正态积分,并且有一些关于它的可访问的文献:E[X|μ]=μ
logL(β)ilogX(11+exp(βX))yi(11+exp(βX))1yiexp(12(Xμi)TΣ1(Xμi))
yi=0yi=1

https://books.google.com/books?hl=en&lr=&id=iaieM_3lcHQC&oi=fnd&pg=PR5&ots=CM9147oK0H&sig=SegYdLgH2UtTDmcspTix2fnBgRg#v=onepage&q=logistic-normal%20integral&f=false

实际上,这本书总体上可能是一本很好的参考书,因为它在具有随机效应的逻辑回归背景下检查了这个积分,可能直接适用于提出的问题。