我有一个数据集,其中每个响应变量是 N 次伯努利试验的成功次数,其中 N 和 p(成功概率)对于每个观察结果都不同。目标是训练一个模型以在给定预测变量的情况下预测 p。然而,具有较小 N 的观测值将具有较高的方差和较高的 N。
考虑以下场景以更好地说明:假设带有不同图片的硬币具有不同的偏差,并且偏差取决于硬币上的图片。我有大量硬币,每个硬币上都有不同的图片,每个硬币都有不同的偏差 p。我想创建一个模型,仅给定硬币上的图片就可以预测硬币的偏差。我将每枚硬币翻转不同的次数并记录成功次数和翻转总数。所以我的数据集由每张图片及其估计值 p=successes/flips 组成。
所以我的问题是在训练我的模型时我应该如何处理这个问题。似乎应该对样本量较大(翻转次数)的观察给予更多的权重。我认为将数字翻转作为预测变量包括在内是没有意义的,因为关键是要建立一个模型,该模型仅使用硬币上的图片来预测 p,因此应该考虑每个观察值的响应方差差异在训练模型时。
我正在使用几种类型的模型,但主要使用 keras 和 xgboost