我正在尝试拟合模型,并且怀疑我所做的不太正确。数据跟踪做出决定的人的比例,以及做出决定时哪些因素是活跃的,例如:
[1,0,1,0, 23%]
[1,1,0,1, 41% ]
等...
我也知道每个组有多大。目标是根据二进制输入预测百分比。我最初的想法是,模型不可能是直线组合,如果只是因为输出是有界的。它也不完全是逻辑回归,因为输出不是标签,而是每组的平均值。我的第一个想法是以类似于逻辑回归的方式将输出转换为 log (p/(1-p)),并拟合线性回归。这给了我一些不错的结果,但我总觉得这不太对劲。除了输出转换之外,我还担心将输入视为数字,当它们真正表示二进制值时,可能不是最好的方法。
所以我的问题是,如果这不是正确的方法,是否有解决这种特定情况的模型?我应该寻找什么?
[编辑澄清]从评论/回复看来我对数据的描述有点缺乏,所以这里还有一点,以及为什么我不确定使用逻辑回归。我会用类似的数据来说明。假设产品具有一组二元特征,将各种产品呈现给客户,并记录结果(买/不买)。然后原始数据集将如下所示:
F1,F2,F3,... Fn, Buy/No Buy
1, 1, 0, .. 0, 1
1, 1, 1, .. 1, 0
其中每一行是一个特定的产品,以及客户做了什么。现在我可以将这些按具有相同特征的相同产品汇总,并简单地记录购买比例以及提供该选择的客户数量。这基本上就是我所拥有的。
我可以分解回原始数据集,并对其进行逻辑回归,但这些组本身非常大,而且大小也非常不同。最重要的是,我有两个问题。首先,我可以重建与原始比例相同的合成组(即,如果 4% 购买,则构建 4 个购买,96 个不购买行),但购买/不购买比率非常小,这意味着重建大型组适当地近似。其次,群体的规模非常不同,我认为完整样本中的群体组成应该与原始群体的组成相似,这意味着创建潜在的非常大的群体。这就是为什么我本质上想知道是否有一种方法可以直接处理小得多的数据集,而无需重建人工的巨大数据集。
我目前的方法是使用梯度下降法,按组大小加权观察,但我想知道是否有更聪明的方法来处理这个问题!