在逻辑回归中对连续随机变量进行分类

机器算法验证 回归 物流 分类数据 大车 连续数据
2022-03-29 15:45:10

我有一个伯努利响应变量,我将拟合逻辑回归。我的自变量之一是连续随机变量,我想在拟合逻辑回归之前对其进行分类。虽然这会丢失一些信息,但它使我的预测更容易,同时我可以很容易地看到这个连续随机变量的影响。我试图对其进行分类,以便每个类别在估计概率上的表现方面都是不同的。理想情况下,我希望看到这个分类变量的逻辑回归系数具有统计显着性。根据经验,我知道分类的数量也应该少于 8 个。大多数时候它是大约 4 或 5 个类别。但类别的确切数量实际上是未知的。在这里找到好的断点是具有挑战性的。我之前尝试过递归分区和回归树。但要使用这种方法,我首先需要自己对自变量进行分类,然后它为我提供断点。

我想知道是否有任何其他替代方法来分类这个连续的自变量。

  • 请注意,这个问题并不是问是否要分类,因为我知道这样做的缺点和优点。我希望那些想要回答或评论的人在试图说服我不要对其进行分类之前考虑这一点。谢谢你。
4个回答

您可以考虑将连续预测器拟合为具有指定结数或通过交叉验证选择的结数的样条函数,而不是通过分类丢弃数据。这不会比分类消耗更多的自由度。如果您愿意设想最多 8 个类别,则尚不清楚分类是否真的比模型良好的连续变量更简单,并且对具有连续拟合的新案例的预测也应该更好。rms我记得,在公式中使用带有 R 包的样条函数很自然地做到了这一点;检查文档。

为响应已编辑的问题和评论而添加:

从基于连续预测器的模型中提取的一组说明性示例可能会更好地为非统计学家服务。您可以选择示例,使它们看起来像类别(“非常高”、“高”、“中”、“低”、“非常低”),即使模型本身并不依赖于分类。

模型本身的分类可能有用的一种情况是,如果您的连续估计器确实存在不同的潜在案例类别,那么您的连续估计器正在混淆。通过一些努力,可以找到这样的示例和一些基本原理,用于 2 类情况,在连续尺度上测量它们的 2 个不同值时具有很高的误差,但很难看出这将如何推广到 2 个以上的类。

由于“易于解释”对您来说似乎很重要,我认为您有兴趣了解列线图,它本质上是一种以图表方式表示的模型。您可以使用回归样条等统计原则方法拟合华丽的趋势,而不是依赖某些特定的分类程序,然后以列线图的形式表示方程。通过在预测变量的值上画一条线来进行预测。

有关回归样条和列线图的更多信息,请参阅 Frank Harrell 的回归建模策略

我一直认为您可以通过两种方法完成大多数任务:知识驱动和数据驱动包括对连续特征进行分箱。

  1. 通过知识驱动,您可以从实际特征所代表的内容中思考什么分箱是有意义的。例如,如果您要对家庭收入进行分箱,您肯定可以找到一些关于美国家庭收入基本统计数据的参考资料,并使用这些统计指标进行分箱(例如,中产阶级、富人等的典型值是多少)。

  2. 通过数据驱动,您必须使用此分箱来提高模型性能。你可以认为你本质上是在做特征工程或基础扩展。假设你想牺牲你的可解释性,你甚至可以使用神经网络来“训练基础扩展”,将一个连续的特征扩展到许多“工程特征”,这些工程特征可以是连续的或离散的。我在想你正在使用 RPART 来装箱,类似于这种方法。

最好的研究总是结合知识驱动和数据驱动,您可以使用知识来指定“模型的粗略形状”并使用数据来拟合它以获得更多细节。在合并连续变量的情况下,您也可以这样做。

我不确定我的回答是否太高级,但请随时要求我详细解释任何部分。

感谢那些试图回答它的人。但是,我认为这些答案中的任何一个都对我没有太大帮助。事实上,这里有一篇关于此的博士论文还有一些 R 包,例如 CatPredi,也可以使用。