数据挖掘 - 哪个指标更适合提升方法 - 吾爱随笔录

数据挖掘机器学习逻辑回归梯度下降监督学习助推

2022-02-16 12:46:06

我在一个包含 300 000 个样本的数据集上工作，并尝试在逻辑回归（使用梯度下降）和用于二元分类的LightBoost之间进行比较，以选择更好的一个。

我想知道在这种情况下我应该使用哪个指标以及为什么？

2个回答

依靠。

首先要明确的是您正在运行一个实验，这意味着您需要使用相同的指标来衡量两者。

哪一个？取决于您正在解决哪个潜在问题，如果您正在做的是确定哪种算法更好，您的结论将仅适用于您的特定数据集

准确性：可以将准确性作为比较指标来衡量，但如果您的数据集不平衡，这将变得微不足道，这意味着您的正面比负面多得多，反之亦然。当数据集平衡时使用准确性，并且如果在正面和负面上出现错误同样糟糕。此外，它还有一个问题是过于依赖定义正面/负面的阈值。
曲线下面积： AUC 是衡量模型区分正负的能力的最可靠的指标之一，它对阈值不敏感并且不受不平衡的影响。我会用这个。
RMSE：我只知道 RMSE 用于连续回归，而不是用于分类。
LogLoss：它的用途是在多项式分类中

我会说 AUC 是分类的最佳整体指标，但不一定是唯一指标，准确性也很有用。作为参考，您可以查看此Quora关于准确性与 AUC 的对比：

它们都测量不同的事物，因此它们是互补的。

准确性：对于给定的阈值，测量正确分类的点的百分比，无论它们属于哪个类别。

AUC：测量给定两个随机点的可能性——一个来自正类，一个来自负类——分类器将来自正类的点排名高于来自负类的点（它确实衡量了排名的性能） .

日志损失也可以作为整体指标的一个很好的候选者，为什么可以从FastAI中读取：

对数损失与准确性

准确性是预测值等于实际值的预测计数。由于其“是”或“否”的性质，准确性并不总是一个好的指标。

Log Loss 根据与实际标签的差异程度来考虑预测的不确定性。这让我们对模型的性能有了更细致的了解。

另一方面，RMSE 是一种回归度量，不应用于分类。

其它你可能感兴趣的问题