我正在为保险领域的问题运行模型。最终结果显示一些假阳性 x 和一些假阴性 y。我为此使用 SAS Enterprise Miner。有人可以建议我如何减少误报吗?我知道为此我必须增加假阴性。我想知道两件事:
电子矿工中是否有任何选项可以让我对假阴性给予更多的重视而对假阳性给予更少的重视?
建模中是否有任何通用方法可以告诉我们减少假阴性的任何方法,或者它只是一种命中和试验方法?
我正在为保险领域的问题运行模型。最终结果显示一些假阳性 x 和一些假阴性 y。我为此使用 SAS Enterprise Miner。有人可以建议我如何减少误报吗?我知道为此我必须增加假阴性。我想知道两件事:
电子矿工中是否有任何选项可以让我对假阴性给予更多的重视而对假阳性给予更少的重视?
建模中是否有任何通用方法可以告诉我们减少假阴性的任何方法,或者它只是一种命中和试验方法?
关于第一个(和第二个)问题:通过迭代训练模型和重新加权行(基于分类错误)来减少错误分类错误的一般方法是Boosting。我想你可能会觉得这种技术很有趣。
关于第二个问题:这个问题对我来说听起来有点天真(但我可能不明白你的真实意图),因为减少错误分类错误 = 提高模型性能是数据挖掘/机器学习的挑战之一。因此,如果有一个通用的全时工作策略,我们都会被机器取代(反正比我们要早)。所以我认为是的,这里的一般方法是受过教育的反复试验。我建议这个问题,Better Classification of default in logistic regression,它可能会给你一些关于提问和模型改进的想法。
我建议玩一下,然后再回来问更具体的问题。如果没有数据和/或有关情况的其他信息,很难回答有关模型改进的一般问题。祝你好运 !
如果您没有找到权重选项,您可以做的是自己创建相同的效果,通过增加正数的数量,例如,您可以将每个已知正数的 2 倍作为算法的输入,然后将负数保留为他们在哪里。您甚至可以将其增加 10 倍,这是一个尝试尽可能接近最佳结果的问题。
在模型选择下,选择“验证错误分类”作为模型选择标准。这将选择错误分类率最低的模型。或者使用损益矩阵并将成本函数附加到您的误报或误报。
是的,它被称为assess选项卡下的截止点。您必须运行整个程序一次以检查图表以确定您的最佳截止值(即,基于所有速率的更多真阳性或更多真阴性)。在每个模型(回归、树等)之后放置切断模块,并检查该模块的结果。然后,您可以更改用户指定的截止点值,以获得 TP/TN 的准确率或整体对称错误分类率。然后再次运行整个事情。