小 p 的倾斜二项式数据

数据挖掘 预测建模 特征工程
2022-03-04 15:23:54

假设你有一个二项分布p很小 (0.001)。

要求您预测条件成功率SR=S/TS成功出自T给定一组条件的试验X.

人们会期望(如果我错了,请纠正我,尽管我运行了模拟并且非常自信)SR随着增加而下降T什么时候T还小,要接近p什么时候T很大。

试验和成功的分布并不均匀X,所以训练集倾向于给出更高的SR以较小的条件T价值观。

在构建模型时,您将如何处理这种数据倾斜?

1个回答

在拟合 GLM(至少在 R 中)时,我知道您可以包含一个可选的权重向量。这个权重不是为了更加重视观察,而是根据以下因素对观察进行加权T例如。

R 文档说:

 For a binomial GLM prior weights are used to give the number of trials
 when the response is the proportion of successes

所以我相信这将有助于调整你的不均匀性。我想如何选择这些权重可能会很棘手,并且可能会因您的数据而有很大差异,但如果它看起来对您的问题有帮助,则值得研究。

问题模拟

您是否有足够的数据可以玩丢数据,或者如果您模拟了多少SR充气过低T您可以尝试以某种方式对其进行调整。看起来在大约 1000 次试验之后,高成功率问题开始变得柔和,在 3000 次左右之后,您开始获得更可靠的测量值。