机器算法验证 - 调整 sklearn 的逻辑回归模型的概率阈值 - 吾爱随笔录

我是一名 10 年级学生，正在研究二元分类问题，我决定使用 Scikit-Learn 的逻辑回归模型。我希望根据一天中的时间、一周中的一天或两者来预测患者的依从性。我已经模拟了数据，并且已经使某些时间段有更多的 0（意味着患者没有服药）来模拟趋势，但我的模型仍然为每个输入预测“1”。我相信我的数据非常不平衡，并且没有任何类权重，模型将每个输入都放入“1”类。显然，这会导致可怕的准确性、AUC 以及介于两者之间的所有内容。Sklearn 确实有一个 class_weight 参数，但由于这是二分法并且只给出“平衡”选项，它确实没有帮助，并且在某些情况下使准确性比假设所有内容都在 1 类中要差得多。鉴于我从数据中看到的情况，我认为将阈值更改为 0.75 会起作用，但我在任何文档中都找不到有关调整阈值的任何信息。

无论如何调整这个阈值？或者任何其他方式来处理我的不平衡数据？

如果您希望我详细说明我的数据的细节，请告诉我。