逆逻辑回归与重复测量与潜在类别?

机器算法验证 回归 潜类
2022-04-07 14:54:30

正如标题所示,我很困惑哪种方法对我的数据最有意义。让我试着简洁地解释这个问题。

我有二元选择数据,表示特定事件的特定人员是否乘坐火车或公共汽车。我有事件级别的预测变量(事件的位置、事件的持续时间)以及个人级别的预测变量(收入水平、教育水平)。每人有多个但不平衡的事件。

这是稍微不寻常的部分:我有一堆历史信息,其中包含所有预测值以及观察到的选择。我想建立一个回归模型,然后我可以将其应用于新数据(包括除教育水平之外的所有内容),以根据他们观察到的选择,尽可能自信地推断出该人的教育程度。

我对如何做到这一点的想法:

  1. 建立一个混合效应、多级逻辑回归模型,将交通选择作为我的因变量,并将education_level 作为预测变量之一。现在使用逆逻辑回归之类的方法求解education_level。
  2. 对计数进行回归。现在,教育是因变量,我们总结了我们看到的每个预测变量子集的计数(例如,附近有 5 个富人乘坐公共汽车的事件,3 个遥远的事件......)
  3. 某种潜在的类模型?

这些替代方案之间的权衡是什么?此外,还有其他值得研究的方法(例如,CFA)吗?

(如果我需要提供有关该问题的更多详细信息,请告诉我。)

谢谢你的时间,伊恩。

1个回答

我的第一个想法是在个人变量和一些简单的交通选择聚合上回归教育(使用比例赔率模型或任何适合您的教育变量的模型)。想到的主要变量是火车与公共汽车的比例 (%train),但如果您只有两个事件级别变量——距离和持续时间——那么另一个选项将是 %train-near、%train-远,%train-short,%train-long。

如果像上面这样简单的事情因为你有太多的事件级变量或者你不愿意对它们进行分类而不起作用,那么你首先想到的是对个人级变量使用具有随机效应的逻辑回归(我想)是正确的想法。但是,我会修改您的建议,使用结构方程模型 (SEM) 对交通选择的教育进行回归,这反过来又对事件和人员级别的变量(教育除外)和随机效应进行回归。教育还可以直接在事件和人员级别变量上进行回归。同时估计所有回归。这可以在 Mplus 中完成,但据我所知,目前在 R 中是不可能的,因为没有一个 SEM 包(lavaan、sem 等)允许像 lme4 包提供的混合效果。它可能可以通过大量编码在 SAS 中完成。不知道其他软件。

考虑到组合的数量和数据量,您对预测变量组合的回归教育的第二个想法是否可行?您有多少事件和人员级别的变量?

潜在类回归对您的数据没有意义,因为个体响应模式不具有可比性(例如,人 1 可能选择 00 表示近短、近短,而人 2 可能选择 0000 表示远长、远长,很长,很长——你可以用很多缺失值重新编码响应向量,但是有更好的方法)。