理解袋装逻辑回归(和 Python 实现)

机器算法验证 回归 物流 Python
2022-03-19 13:30:35

我正在尝试理解我正在阅读的关于营销归因的袋装逻辑回归的学术文章——http: //www.turn.com.akadns.net/sites/default/files/whitepapers/TURN_Tech_WP_Data-driven_Multi-touch_Attribution_Models.pdf

特别是,这一段:

步骤 1. 对于给定的数据集,对所有样本观测值的比例 (ps) 和所有协变量的比例 (pc) 进行采样。 在采样协变量和采样数据上拟合逻辑回归模型。记录估计的系数——如果可变性和准确性都受到关注,我们建议选择 ps 和 pc 取 0.5 左右的值

有人可以用(希望)简单的英语解释一下这意味着什么吗?根据我的理解,这个想法是继续对样本数据的 0.5 个随机子集运行逻辑回归,然后平均所有满足 0.5 个选择阈值的对数奇数系数?

完全可选的奖励点 1:在旁注中,这种实现是否类似于 scikit learn for python 中的随机逻辑回归的想法?如果不是,有什么区别? http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html

完全可选 加分点 2:有没有办法将有序效应合并到袋装逻辑回归模型中(例如,预测变量(在这种情况下为广告)出现的顺序——但这是主要问题的次要问题)

1个回答

Bagging是一种集成方法,您可以在其中根据训练数据的独立样本训练模型并结合(平均、投票等)它们的预测。这通常比单个模型产生更准确的预测。从技术上讲,bagging 意味着样本是在替换的情况下抽取的,并且与完整数据集的大小相同。然而,该术语有时也适用于其他抽样方案。

Bagged Logistic Regression 是指对单个模型使用逻辑回归进行 bagging,但它是松散意义上的 bagging。他们实际上将子采样(即无替换采样)与随机子空间(对列/特征进行采样)相结合。

引号ps中是每个样本中包含的行/项目pc的分数,并且是列/特征的分数。他们只是使用更具统计意义的术语,其中观察是行,协变量是列。

这与内部所做的很接近sklearn.linear_model.RandomizedLogisticRegression主要区别在于 RandomizedLogisticRegression 不支持列抽样,也不是预测模型。它仅用于选择相关特征。

Bagging 并没有真正为处理测序信息提供任何额外的东西。您可以像使用任何其他机器学习方法一样创建对排序信息进行编码的特征,但如果这是您感兴趣的主要内容,您应该研究专门的方法。