我有很多数据,我试图将红色数据与蓝色数据区分开来,但所有特征基本上都是这样的(参见 imgur)。
它们重叠很多,我只能得到 0.65 的 roc auc 分数。
到目前为止,在数据处理方面,我只使用类权重来平衡它。我尝试了不同类型的密集/辍学网络,具有不同的功能,但只有 0.65 是我能得到的最好的,大多数徘徊在 0.63-0.65 左右,无论我添加多少层或时代。
例如一个简单的 DNN/dropout 产生 0.65:""" Dense(512, activation='relu'), Dropout(0.3), Dense(512, activation='relu'), Dropout(0.3), Dense(512, activation ='relu'), Dropout(0.3), Dense(512, activation='relu'), Dropout(0.3), Dense(512, activation='relu'), Dense(1, activation="sigmoid") "" "
我在网上找到的一些resnet修改也只提供了0.65。
所以到目前为止,我只尝试了 CNN 和密集层网络。
我可以做些什么来获得更好的 AUC 分数?
