我想知道是否可以使用以下属性构造问题:
是矩阵来自 A 类的观察
是矩阵B 级的观察结果(我保留为简单起见相同,但不是必需的)
下面的函数返回一个零向量:
D=function(X,Y)
{
m1=colMeans(X)
m2=colMeans(Y)
s1=apply(X,2,sd)
s2=apply(Y,2,sd)
return(abs((m1-m2)/(s1+s2)))
}
当与和.
但是,当在数据集上运行逻辑回归时,它会提供一个分类器,可以准确地在两个类别之间进行分类。我认为这是不可能的,但想问。这个问题背后的动机是我正在研究一个真正的问题值非常小(平均小于 0.1),但 LR 分类器能够在训练数据集上获得 0.66 的 AUC。
编辑:我在回答后发布了一个后续问题。根据答案,我认为假设 LR 的性能应该与- 确实我用值来决定我要输入到 LR(特征选择)的特征。但是最近我遇到了一个问题,这个假设似乎被违反了。我无法发布数据,但这里有两种情况:
在一种情况下(案例 1)我的特征向量有分数由:
可以看出,这些值非常小,但是当我运行 LR 时,我得到的 AUC 为 0.66,这是 LR 的输出:
Call:
glm(formula = class ~ ., family = "binomial", data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.6911 -0.3394 -0.2880 -0.2376 2.9908
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.671e+00 3.412e-01 -10.758 < 2e-16 ***
V98 1.671e-04 2.751e-05 6.074 1.25e-09 ***
V99 -5.708e-04 1.296e-04 -4.403 1.07e-05 ***
V100 4.075e-04 8.066e-05 5.051 4.39e-07 ***
V101 -1.084e-03 2.441e-04 -4.442 8.92e-06 ***
V102 6.915e-03 1.510e-03 4.580 4.64e-06 ***
V103 -2.220e-02 5.890e-03 -3.770 0.000163 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1929.8 on 5039 degrees of freedom
Residual deviance: 1852.2 on 5033 degrees of freedom
AIC: 1866.2
Number of Fisher Scoring iterations: 7
现在将上面与案例 2进行比较,其中我的特征向量具有以下值:
平均高于值几乎比情况 1高 2 倍,但 LR 分类器的表面却是平平的。这是它的输出:
Call:
glm(formula = class ~ ., family = "binomial", data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.7968 -0.3597 -0.2762 -0.1380 2.8111
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 7.56148 9.79303 0.772 0.44004
energy -0.09437 0.08758 -1.078 0.28123
entropy 1.19914 2.67011 0.449 0.65336
correlation 173.27758 75.08438 2.308 0.02101 *
sd.energy 0.22770 0.16946 1.344 0.17906
sd.entropy -15.64633 9.30878 -1.681 0.09280 .
sd.correlation -287.35575 104.54289 -2.749 0.00598 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 192.98 on 503 degrees of freedom
Residual deviance: 173.42 on 497 degrees of freedom
AIC: 187.42
Number of Fisher Scoring iterations: 8
> auc
[1] 0.4585417
所以我的困境是如何解释以上内容?为什么功能低能够提供比具有更高的特征更好的分类? 因此如果不是一个好的特征的指标,那么可以使用什么指标来确定哪些特征可以输入 LR?
