我正在研究一个分类问题。我有一个包含相等数量的分类变量和连续变量的数据集。在决策树和逻辑回归之间,我如何决定使用哪种技术?
假设逻辑回归将更适合连续变量并且决策树将更适合连续变量和分类变量是否正确?
我正在研究一个分类问题。我有一个包含相等数量的分类变量和连续变量的数据集。在决策树和逻辑回归之间,我如何决定使用哪种技术?
假设逻辑回归将更适合连续变量并且决策树将更适合连续变量和分类变量是否正确?
长话短说:按照@untitledprogrammer 所说的去做,尝试两种模型并交叉验证以帮助选择一个。
决策树(取决于实现,例如 C4.5)和逻辑回归都应该能够很好地处理连续和分类数据。对于逻辑回归,您需要对分类变量进行虚拟编码。
正如@untitledprogrammer 所提到的,仅根据您拥有的功能类型(连续或其他),很难先验地知道哪种技术会更好。这实际上取决于您的具体问题和您拥有的数据。(见没有免费午餐定理)
您需要记住,逻辑回归模型是在特征空间中搜索单个线性决策边界,而决策树本质上是使用轴对齐的线性决策边界将特征空间划分为半空间。最终效果是您有一个非线性决策边界,可能不止一个。
当您的数据点不容易被单个超平面分隔时,这很好,但另一方面,决策树非常灵活,容易过度拟合。为了解决这个问题,您可以尝试修剪。逻辑回归往往不太容易(但不能免疫!)过度拟合。
最后,要考虑的另一件事是决策树可以自动考虑变量之间的相互作用,例如如果你有两个独立的特征和. 使用逻辑回归,您必须自己手动添加这些交互项。
所以你要问自己:
当然,尝试两种模型并进行交叉验证总是一个好主意。这将帮助您找出哪一个更有可能具有更好的泛化错误。
尝试同时使用回归树和决策树。通过使用 10 折交叉验证来比较每种技术的效率。坚持效率更高的那个。仅通过知道您的数据集是连续的和/或分类的,就很难判断哪种方法更适合。
这实际上取决于数据底层分布的结构。如果您有充分的理由相信数据近似于伯努利分布,则多项逻辑回归将表现良好并为您提供可解释的结果。但是,如果基础分布中存在非线性结构,则应认真考虑非参数方法。
虽然您可以使用决策树作为非参数方法,但您也可以考虑研究生成随机森林——这实质上是从数据子集生成大量单独的决策树,最终分类是所有树的聚合投票. 随机森林可帮助您了解每个预测变量对响应的贡献程度。
要记住的另一个因素是可解释性。如果您只是尝试对数据进行分类,那么您可能并不关心解释变量和响应变量之间的潜在关系。但是,如果您对可解释性完全感兴趣,那么多项逻辑回归通常更容易解释,参数方法,因为它们对基础分布做出假设,可以更直观地告诉您可解释的关系。
要使用决策树,您应该将连续变量转换为分类变量。
还有一件事,逻辑回归通常用于根据概率预测结果。