这是关于具有一个自变量 (IV) 和一个因变量 (DV) 的逻辑回归的二元分类。IV似乎是正态分布的,残差是随机分布的,据我所知,根据我的领域知识和看图,它应该以线性方式影响DV,并且绝对是单调关系. 所以基本上,这应该是一个非常直接的关系。有 1100 个数据点。
当我运行回归并使用 10 倍交叉验证检查预测时,它的预测准确率约为 51%,甚至只是随机的。有很多差异,所以我们可以希望的最好结果可能是 54%。值得注意的是,当真实比率接近 1 比 1 时,该模型预测成功率约为 4 比 1。
问题 1:此时,如果您尝试改进此回归,您会尝试做什么?你认为可能是什么问题?
所以我尝试了各种方法,比如添加不同的 IV,尝试随机转换,但没有成功。然后我开始对数据进行聚类,只选择了大约一半与我试图预测的测试用例最匹配的数据点。这大大提高了准确性。
问题 2:为什么在这样一个简单、基本的回归情况下聚类会有所帮助?有没有比聚类更合理、更有效的方法来建立这种回归?