对于一类分类(OCC)的许多数据集,基于一致性的模型选择效果不佳。所以我正在寻找其他一些模型选择标准。
由于只有一类数据(即正类)可用,分类错误不再是一个有效的标准。在 OCC 中确定最佳参数是一项非常具有挑战性的任务。这里,模型选择是指一类分类器的最优参数选择。
请建议除基于一致性的模型选择方法之外的任何其他方法。
对于一类分类(OCC)的许多数据集,基于一致性的模型选择效果不佳。所以我正在寻找其他一些模型选择标准。
由于只有一类数据(即正类)可用,分类错误不再是一个有效的标准。在 OCC 中确定最佳参数是一项非常具有挑战性的任务。这里,模型选择是指一类分类器的最优参数选择。
请建议除基于一致性的模型选择方法之外的任何其他方法。
你读过 Janssens 的论文《Outlier Selection and One-Class Classification》吗?他有一章关于评估可能有用。您是否考虑过人工生成负例?
不久前我不得不处理 OCC 评估,但从未找到完全令人满意的解决方案。我记得,基本问题归结为这样一个事实,即您实际上并没有标记为负类的实例。如果没有这些实例,就无法计算精度 = TP/(TP+FP),这取决于错误接受的负实例 ( FP ) 的计数。这只是让你回忆= TP /(TP + FN)作为一个可计算的指标 - 它本身在评估分类器性能方面几乎没有用,即编写一个获得 100% 召回率的分类器是微不足道的,只需预测测试数据中每个实例的正类......你将正确识别每一个真实的正实例,但您也会错误地将每个负实例预测为正实例。通常需要的是精度和召回率之间的平衡或权衡。
您没有提到您正在工作的特定问题领域,但也许您可以利用此领域知识作为解决 OCC 评估问题的方法。我将涉及的这个特定问题在技术上被视为PU学习问题(从正和未标记的实例中学习)。我将尝试描述一些我在应对这一挑战时探索过的解决方案——我会公平地警告你,它们并不是完全令人满意的解决方案,但我相信它们在逻辑上是合理的,而且在某种程度上是有道理的。从纯粹务实的角度来看,它们绝对比替代品更好。
隐式负类
场景:想象一个基于会员的激励计划,人们可以支付年费成为 Foobar Inc. 的会员。会员,但不是非会员,有权在 Foobar 的零售店购买小部件。
您负责增加 Foobar 会员的营销活动。您的资金和影响力有限,因此您需要从普通人群中仔细选择您认为如果您通过促销活动定位他们最有可能成为会员的人。在这种情况下,您有一个已知 Foobar 成员的数据库(标记的正类数据,我们将其标记为 POS)和一个来自公众的已知非成员的数据库。这是您未标记的数据,其中包含可能会或可能不会成为成员的人(如果有针对性)。我们只有POS实例和UL实例——没有标记的NEG实例。
根据您的特定问题、上下文和领域,您可以将 OCC/PU 问题转换为具有标准性能指标的更经典的问题。在我刚刚描述的情况下,至少有三种方法可以创建隐式否定类:
您可能想要探索的最后一个领域是协同过滤研究中的评估。对一元响应的协同过滤(例如,Facebook“喜欢”)
可以被认为是分类和回归建模中正无标签(PU)学习问题的矩阵完成模拟。(阿加瓦尔,2016 年)
也许这个领域已经开发了一些您可以利用的 OCC 评估新方法。但是,在不了解您的特定案例的详细信息的情况下,很难提供更详细的解决方案。请使用您的最终解决方案更新此线程-在此特定问题域中需要进行更多研究。