正如标题所示,我很困惑哪种方法对我的数据最有意义。让我试着简洁地解释这个问题。
我有二元选择数据,表示特定事件的特定人员是否乘坐火车或公共汽车。我有事件级别的预测变量(事件的位置、事件的持续时间)以及个人级别的预测变量(收入水平、教育水平)。每人有多个但不平衡的事件。
这是稍微不寻常的部分:我有一堆历史信息,其中包含所有预测值以及观察到的选择。我想建立一个回归模型,然后我可以将其应用于新数据(包括除教育水平之外的所有内容),以根据他们观察到的选择,尽可能自信地推断出该人的教育程度。
我对如何做到这一点的想法:
- 建立一个混合效应、多级逻辑回归模型,将交通选择作为我的因变量,并将education_level 作为预测变量之一。现在使用逆逻辑回归之类的方法求解education_level。
- 对计数进行回归。现在,教育是因变量,我们总结了我们看到的每个预测变量子集的计数(例如,附近有 5 个富人乘坐公共汽车的事件,3 个遥远的事件......)
- 某种潜在的类模型?
这些替代方案之间的权衡是什么?此外,还有其他值得研究的方法(例如,CFA)吗?
(如果我需要提供有关该问题的更多详细信息,请告诉我。)
谢谢你的时间,伊恩。