数据挖掘 - 建模事件顺序对概率的影响 - 吾爱随笔录

数据挖掘数据挖掘可能性顺序

2022-03-02 08:58:25

案例是对事件序列是否影响二元目标变量的概率进行建模。例如，我们有五个不同的事件发生在时间上（事件：A、B、C、D、E）。它们可以按从 1 到 5 的顺序出现。我想检查它们出现的顺序是否影响目标变量。

我的第一个想法是将发生时间转换为从 1 到 5 的数字，然后例如使用逻辑回归。

你知道其他的做法吗？任何白皮书和想法都会有所帮助。

2个回答

如果事件出现的顺序很重要，请考虑使用循环神经网络。您提出的设置对于事件排序是不变的，而在 RNN 中，事件是按顺序输入的。

如果您有足够大的样本量，您确实可以按照您建议的方式执行此操作。

对于五个事件，您有 120 ( $^5P_5$ ) 事件顺序的可能排列。这允许您使用 120 个虚拟自变量运行逻辑回归，每个变量对应于事件顺序的排列。此回归的 F 检验将用作显着性检验，以查看不同事件排序之间结果的频率是否存在差异。

然而，这确实需要大样本量。一个好的经验法则是在一般线性模型中每个自变量至少有 20 个观察值，所以如果您有几千个样本，我们希望这个模型能够很好地拟合。

这确实假设您的事件数量相对较少。五个似乎是可以管理的，但是随着事件数量的增加，随着自变量数量的阶乘增长，您很快就会遇到问题。

其它你可能感兴趣的问题