为什么几种类型的模型会给出几乎相同的结果?

数据挖掘 数据挖掘 分类 二进制
2021-10-06 06:47:07

我一直在分析约 40 万条记录和 9 个变量的数据集。因变量是二进制的。我已经拟合了逻辑回归、回归树、随机森林和梯度提升树。当我在另一个数据集上验证它们时,它们都给出了虚拟相同的拟合优度。

为什么会这样?我猜这是因为我对变量比率的观察结果太高了。如果这是正确的,那么不同的模型将以什么观察值与变量的比率开始给出不同的结果?

4个回答

这个结果意味着无论您使用什么方法,您都能够合理地接近最优决策规则(又名贝叶斯规则)。Hastie、Tibshirani 和 Friedman 的“统计学习要素”中已经解释了根本原因他们通过比较图 1-2 展示了不同方法的执行情况。2.1、2.2、2.3、5.11(在我的第一版中——在多维样条部分)、12.2、12.3(支持向量机),可能还有其他一些。如果您还没有读过那本书,您需要立即放下所有内容阅读它。(我的意思是,失去工作不值得,但如果你是学生,错过一两个家庭作业是值得的。)

我不认为观察变量比率是解释。根据我上面提供的基本原理,这是在多维空间中分隔类的相对简单的形式,您尝试的所有方法都能够识别它。

还值得关注一下训练错误。

基本上我不同意你的分析。如果逻辑回归等都给出相同的结果,则表明“最佳模型”是一个非常简单的模型(所有模型都可以很好地拟合 - 例如基本上是线性的)。

那么问题可能是为什么最好的模型是一个简单的模型?:这可能表明您的变量不是很有预测性。不知道数据当然很难分析。

正如@seanv507 所建议的那样,类似的性能可能仅仅是由于数据最好由线性模型分离。但总的来说,因为“观测值与变量比率如此之高”的说法是不正确的。即使您的样本量与变量数量之比趋于无穷大,您也不应该期望不同的模型执行几乎相同,除非它们都提供相同的预测偏差。

我猜这是因为我对变量比率的观察结果太高了。

我认为这个解释非常有道理。

如果这是正确的,那么不同的模型将以什么观察值与变量的比率开始给出不同的结果?

这可能在很大程度上取决于您的特定数据(例如,即使您的九个变量是连续的、因子、普通的还是二元的),以及您在拟合模型时做出的任何调整决定。

但是你可以玩弄观察与变量的比率——不是通过增加变量的数量,而是通过减少观察的数量。随机抽取 100 个观测值,拟合模型,看看不同的模型是否会产生不同的结果。(我想他们会的。)使用从您的观察总数中提取的不同样本多次执行此操作。然后查看 1,000 个观测值的子样本……10,000 个观测值……等等。