我正在尝试理解我正在阅读的关于营销归因的袋装逻辑回归的学术文章——http: //www.turn.com.akadns.net/sites/default/files/whitepapers/TURN_Tech_WP_Data-driven_Multi-touch_Attribution_Models.pdf
特别是,这一段:
步骤 1. 对于给定的数据集,对所有样本观测值的比例 (ps) 和所有协变量的比例 (pc) 进行采样。 在采样协变量和采样数据上拟合逻辑回归模型。记录估计的系数——如果可变性和准确性都受到关注,我们建议选择 ps 和 pc 取 0.5 左右的值
有人可以用(希望)简单的英语解释一下这意味着什么吗?根据我的理解,这个想法是继续对样本数据的 0.5 个随机子集运行逻辑回归,然后平均所有满足 0.5 个选择阈值的对数奇数系数?
完全可选的奖励点 1:在旁注中,这种实现是否类似于 scikit learn for python 中的随机逻辑回归的想法?如果不是,有什么区别? http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html
完全可选 加分点 2:有没有办法将有序效应合并到袋装逻辑回归模型中(例如,预测变量(在这种情况下为广告)出现的顺序——但这是主要问题的次要问题)