逻辑回归和聚类?

机器算法验证 回归 物流 聚类 偏见
2022-04-11 17:36:09

这是关于具有一个自变量 (IV) 和一个因变量 (DV) 的逻辑回归的二元分类。IV似乎是正态分布的,残差是随机分布的,据我所知,根据我的领域知识和看图,它应该以线性方式影响DV,并且绝对是单调关系. 所以基本上,这应该是一个非常直接的关系。有 1100 个数据点。

当我运行回归并使用 10 倍交叉验证检查预测时,它的预测准确率约为 51%,甚至只是随机的。有很多差异,所以我们可以希望的最好结果可能是 54%。值得注意的是,当真实比率接近 1 比 1 时,该模型预测成功率约为 4 比 1。

问题 1:此时,如果您尝试改进此回归,您会尝试做什么?你认为可能是什么问题?

所以我尝试了各种方法,比如添加不同的 IV,尝试随机转换,但没有成功。然后我开始对数据进行聚类,只选择了大约一半与我试图预测的测试用例最匹配的数据点。这大大提高了准确性。

问题 2:为什么在这样一个简单、基本的回归情况下聚类会有所帮助?有没有比聚类更合理、更有效的方法来建立这种回归?

1个回答

您所说的“聚类”也称为局部回归、核回归或局部似然平滑。总体框架是广义加法建模,权威教科书是 Hastie & Tibshirani (1990) Generalized Additive Models和 Wood (2006) Generalized Additive Models: An Introduction With R。

GAM 扩展了 GLM(包括逻辑回归),允许非线性趋势以数据驱动的方式进入模型。您可以通过转换手动包含此类非线性趋势,例如多项式项或样条项,但这通常需要事先检查数据。如果您有许多变量和/或它们相互关联,这可能会很乏味。使用局部拟合改进了您的模型这一事实表明您的 IV 和 DV 之间的关系是非线性的。