负对数似然是什么意思?

数据挖掘 回归 集成建模
2021-10-03 14:43:22

我有一个具有连续自变量和连续因变量的数据集。为了使用自变量预测因变量,我运行了一组回归模型并尝试将它们相互比较。以下是供参考的结果:

在此处输入图像描述

我可以解释R-squared value / Coefficient of determination每个模型的含义。但是,我无法理解是什么Negative Log Likelihood意思。特别是,为什么线性回归和增强决策树是无穷大,而决策森林回归是有限值?

编辑:
数据描述:进入这三个模型的数据都是连续自变量和连续因变量。共有 542 个观测值和 26 个变量。
这 542 个变量被拆分为 70 - 30 以获得训练和测试数据集。因此,训练数据集有 379 个观测值和 26 个变量;测试数据集有 163 个观测值和 26 个变量。没有丢失的数据。


编辑 2 可能的解释 - (单击此处):显然,Azure ML 中的线性回归和提升树不计算负对数似然指标 - 这可能是 NLL 在这两种情况下都是无穷大或未定义的原因。

2个回答

似然函数是概率分布函数的乘积,假设每个观察都是独立的。但是,我们通常在对数尺度上工作,因为 PDF 项现在是相加的。如果您不明白我所说的,请记住它的值越高,您的模型就越适合该模型。maximum likelihood estimation有兴趣的谷歌一下。

显然,您的输入数据很糟糕。你应该给你的模型一个合适的数据集。虽然我没有你的数据集,但我们可以看一下线性回归的似然函数:

在此处输入图像描述

如果似然函数为零或未定义(这是因为 log(0) 无效),您将获得无穷大。查看方程式,您的样本标准差很可能为零如果它为零,则最后一项将是未定义的。您是否给出了在行上复制和粘贴相同数据的数据集?

如果您的样本偏差为零,则增强树也应该是未定义的。但是,决策树是基于杂质估计的,不会在这里崩溃。

摘要:请检查并仔细检查您的数据。

编辑我认为你只是有一个错误。线性回归总会在这里给你一些东西。你是否用相同的数据集拟合了 R 中的模型?

这个答案正确地解释了可能性如何描述t使用给定数据x和学习权重观察地面实况标签的可能性w但那个答案并没有解释negative.

一个rG一个XwlG(p(|X,w))

当然,我们选择w最大化概率的权重。

但是为了优化它,我们需要一个设置为零的最小值函数来获得局部/全局最小值。

这就是为什么我们不是最大化函数而是最小化它的negative

一个rG一世nw-lG(p(|X,w))