有没有可能有这样的情况D'D′是零,但逻辑回归仍然能够准确分类?

机器算法验证 物流 分类
2022-04-17 01:18:32

我想知道是否可以使用以下属性构造问题:
M1n×p矩阵n来自 A 类的观察
M2n×p矩阵nB 级的观察结果(我保留n为简单起见相同,但不是必需的)
下面的函数返回一个零向量:

D=function(X,Y)
{
    m1=colMeans(X)
    m2=colMeans(Y)
    s1=apply(X,2,sd)
    s2=apply(Y,2,sd)
    return(abs((m1-m2)/(s1+s2)))
}

当与X=M1Y=M2.
但是,当在数据集上运行逻辑回归时,它会提供一个分类器,可以准确地在两个类别之间进行分类。我认为这是不可能的,但想问。这个问题背后的动机是我正在研究一个真正的问题D值非常小(平均小于 0.1),但 LR 分类器能够在训练数据集上获得 0.66 的 AUC。

编辑:我在回答后发布了一个后续问题。根据答案,我认为假设 LR 的性能应该与D- 确实我用D值来决定我要输入到 LR(特征选择)的特征。但是最近我遇到了一个问题,这个假设似乎被违反了。我无法发布数据,但这里有两种情况:

在一种情况下(案例 1)我的特征向量有D分数由:

D=(0.1290,0.07961,0.06397,0.07427,0.04373,0.06814)

可以看出,这些值非常小,但是当我运行 LR 时,我得到的 AUC 为 0.66,这是 LR 的输出:

Call:
glm(formula = class ~ ., family = "binomial", data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.6911  -0.3394  -0.2880  -0.2376   2.9908  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.671e+00  3.412e-01 -10.758  < 2e-16 ***
V98          1.671e-04  2.751e-05   6.074 1.25e-09 ***
V99         -5.708e-04  1.296e-04  -4.403 1.07e-05 ***
V100         4.075e-04  8.066e-05   5.051 4.39e-07 ***
V101        -1.084e-03  2.441e-04  -4.442 8.92e-06 ***
V102         6.915e-03  1.510e-03   4.580 4.64e-06 ***
V103        -2.220e-02  5.890e-03  -3.770 0.000163 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1929.8  on 5039  degrees of freedom
Residual deviance: 1852.2  on 5033  degrees of freedom
AIC: 1866.2

Number of Fisher Scoring iterations: 7

现在将上面与案例 2进行比较,其中我的特征向量具有以下值D

D=(0.0350,0.1545,0.0942,0.0182,0.2346,0.3499)

平均高于D值几乎比情况 1高 2 倍,但 LR 分类器的表面却是平平的。这是它的输出:

Call:
glm(formula = class ~ ., family = "binomial", data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-0.7968  -0.3597  -0.2762  -0.1380   2.8111  

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)   
(Intercept)       7.56148    9.79303   0.772  0.44004   
energy           -0.09437    0.08758  -1.078  0.28123   
entropy           1.19914    2.67011   0.449  0.65336   
correlation     173.27758   75.08438   2.308  0.02101 * 
sd.energy         0.22770    0.16946   1.344  0.17906   
sd.entropy      -15.64633    9.30878  -1.681  0.09280 . 
sd.correlation -287.35575  104.54289  -2.749  0.00598 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 192.98  on 503  degrees of freedom
Residual deviance: 173.42  on 497  degrees of freedom
AIC: 187.42

Number of Fisher Scoring iterations: 8

> auc
[1] 0.4585417

所以我的困境是如何解释以上内容?为什么功能低D能够提供比具有更高的特征更好的分类D? 因此如果D不是一个好的特征的指标,那么可以使用什么指标来确定哪些特征可以输入 LR?

1个回答

你的直觉是正确的:这样的例子是不可能的。

要了解为什么不,请同时考虑M1M2作为集合p-向量。因为逻辑回归中任何向量的预测值都是线性函数,所以完美预测意味着存在一个余维-1将所有点分开的仿射超空间M1从那些在M2. 这意味着它们的质心不能重合,QED

数字

在这个图中p=2并且这些组有大小30(红色圆圈)和10(蓝色三角形)。它们的质心显示为相应的填充图形。出现完美分离,如灰色虚线所示。由于质心必须位于这条线的相对两侧,因此它们不能重合。