假设你有一个二项分布很小 ()。
要求您预测条件成功率和成功出自给定一组条件的试验.
人们会期望(如果我错了,请纠正我,尽管我运行了模拟并且非常自信)随着增加而下降什么时候还小,要接近什么时候很大。
试验和成功的分布并不均匀,所以训练集倾向于给出更高的以较小的条件价值观。
在构建模型时,您将如何处理这种数据倾斜?
假设你有一个二项分布很小 ()。
要求您预测条件成功率和成功出自给定一组条件的试验.
人们会期望(如果我错了,请纠正我,尽管我运行了模拟并且非常自信)随着增加而下降什么时候还小,要接近什么时候很大。
试验和成功的分布并不均匀,所以训练集倾向于给出更高的以较小的条件价值观。
在构建模型时,您将如何处理这种数据倾斜?
在拟合 GLM(至少在 R 中)时,我知道您可以包含一个可选的权重向量。这个权重不是为了更加重视观察,而是根据以下因素对观察进行加权例如。
R 文档说:
For a binomial GLM prior weights are used to give the number of trials
when the response is the proportion of successes
所以我相信这将有助于调整你的不均匀性。我想如何选择这些权重可能会很棘手,并且可能会因您的数据而有很大差异,但如果它看起来对您的问题有帮助,则值得研究。
您是否有足够的数据可以玩丢数据,或者如果您模拟了多少充气过低您可以尝试以某种方式对其进行调整。看起来在大约 1000 次试验之后,高成功率问题开始变得柔和,在 3000 次左右之后,您开始获得更可靠的测量值。