我有 150 个观察结果,500 个特征,并且我对新奇检测(异常值检测)感兴趣:给定一个新观察结果(假设是“患者”)我想知道它是否与以前的观察结果不同(我们称其为“控制” )。如果我有很多数据,我可能会在单变量参数级别使用统计测试,但是由于多个测试问题,我最终会探索控制分布的尾部以达到显着性,并且我没有足够的数据对于如此小的 p 值的非参数测试。
我正在做一类 SVM,通过学习全局决策策略来缓解这个问题。这种方法的局限性是
它非常“黑盒子”
如果数据非常“各向异性”,即控制的边缘分布在不同方向上非常不同,则它的效果很差。
解决问题 2 的一个技巧是将规范集中在单变量参数(这通常称为创建“Z 分数”)。理想情况下,希望使用控制协方差对数据进行白化,但没有足够的数据来计算它。然后可以将 OC-SVM 中输入的值解释为单变量检验统计量(在对照组的正态零分布下)。
在我的例子中,我可以从直方图中看到控件的分布是重尾的。我想学习一个单变量变换,使其更接近标准法线。
顺便说一句,我对这种做法没有参考。我通过经验和实验室讨论学习了它们。任何指针都会受到欢迎,即使他们不直接回答我的问题。