机器算法验证 - 逻辑回归和聚类？ - 吾爱随笔录

这是关于具有一个自变量 (IV) 和一个因变量 (DV) 的逻辑回归的二元分类。IV似乎是正态分布的，残差是随机分布的，据我所知，根据我的领域知识和看图，它应该以线性方式影响DV，并且绝对是单调关系. 所以基本上，这应该是一个非常直接的关系。有 1100 个数据点。

当我运行回归并使用 10 倍交叉验证检查预测时，它的预测准确率约为 51%，甚至只是随机的。有很多差异，所以我们可以希望的最好结果可能是 54%。值得注意的是，当真实比率接近 1 比 1 时，该模型预测成功率约为 4 比 1。

问题 1：此时，如果您尝试改进此回归，您会尝试做什么？你认为可能是什么问题？

所以我尝试了各种方法，比如添加不同的 IV，尝试随机转换，但没有成功。然后我开始对数据进行聚类，只选择了大约一半与我试图预测的测试用例最匹配的数据点。这大大提高了准确性。

问题 2：为什么在这样一个简单、基本的回归情况下聚类会有所帮助？有没有比聚类更合理、更有效的方法来建立这种回归？