数据挖掘 - 改进神经网络以区分红色和蓝色的方法？ - 吾爱随笔录

我有很多数据，我试图将红色数据与蓝色数据区分开来，但所有特征基本上都是这样的（参见 imgur）。

它们重叠很多，我只能得到 0.65 的 roc auc 分数。

到目前为止，在数据处理方面，我只使用类权重来平衡它。我尝试了不同类型的密集/辍学网络，具有不同的功能，但只有 0.65 是我能得到的最好的，大多数徘徊在 0.63-0.65 左右，无论我添加多少层或时代。

例如一个简单的 DNN/dropout 产生 0.65：""" Dense(512, activation='relu'), Dropout(0.3), Dense(512, activation='relu'), Dropout(0.3), Dense(512, activation ='relu'), Dropout(0.3), Dense(512, activation='relu'), Dropout(0.3), Dense(512, activation='relu'), Dense(1, activation="sigmoid") "" "

我在网上找到的一些resnet修改也只提供了0.65。

所以到目前为止，我只尝试了 CNN 和密集层网络。

我可以做些什么来获得更好的 AUC 分数？