案例是对事件序列是否影响二元目标变量的概率进行建模。例如,我们有五个不同的事件发生在时间上(事件:A、B、C、D、E)。它们可以按从 1 到 5 的顺序出现。我想检查它们出现的顺序是否影响目标变量。
我的第一个想法是将发生时间转换为从 1 到 5 的数字,然后例如使用逻辑回归。
你知道其他的做法吗?任何白皮书和想法都会有所帮助。
案例是对事件序列是否影响二元目标变量的概率进行建模。例如,我们有五个不同的事件发生在时间上(事件:A、B、C、D、E)。它们可以按从 1 到 5 的顺序出现。我想检查它们出现的顺序是否影响目标变量。
我的第一个想法是将发生时间转换为从 1 到 5 的数字,然后例如使用逻辑回归。
你知道其他的做法吗?任何白皮书和想法都会有所帮助。
如果事件出现的顺序很重要,请考虑使用循环神经网络。您提出的设置对于事件排序是不变的,而在 RNN 中,事件是按顺序输入的。
如果您有足够大的样本量,您确实可以按照您建议的方式执行此操作。
对于五个事件,您有 120 () 事件顺序的可能排列。这允许您使用 120 个虚拟自变量运行逻辑回归,每个变量对应于事件顺序的排列。此回归的 F 检验将用作显着性检验,以查看不同事件排序之间结果的频率是否存在差异。
然而,这确实需要大样本量。一个好的经验法则是在一般线性模型中每个自变量至少有 20 个观察值,所以如果您有几千个样本,我们希望这个模型能够很好地拟合。
这确实假设您的事件数量相对较少。五个似乎是可以管理的,但是随着事件数量的增加,随着自变量数量的阶乘增长,您很快就会遇到问题。