神经网络 - 高贝叶斯错误率问题的策略

数据挖掘 机器学习 神经网络 深度学习 贝叶斯错误
2022-02-16 23:24:15

我正在为一个二元分类问题构建一个神经网络,其中贝叶斯错误(可能的最低错误率)可能接近 50%。

使任务更容易的是我不需要对测试样本的每次观察进行预测。我只想对模型具有相当高置信度的观察结果进行预测。然而,高预测率比低预测率要好。

到目前为止,我使用了一个标准的神经网络(前馈、交叉熵损失、L2 正则化和最终节点上的 sigmoid 激活)。在测试样本中,我只考虑了最终节点值的观察值(Y^i)在低置信区间之外:

predicted classi={1 if Y^i>0.5+a0 if Y^i<0.5aNAelsewhere a[0,0.5] indicates the level of confidence required

调整超参数(包括a),我设计了一个指标,该指标正依赖于:

  • 测试样本准确度(仅计算与 NA 不同的预测)
  • 与 NA 不同的预测百分比。

我对这种方法所获得的性能还不满意,我确信有更聪明的方法可以解决这个问题,例如自定义损失函数。欢迎提供建议、文章链接,甚至是相关的搜索关键字。

1个回答

你的贝叶斯错误率很高,这意味着你几乎什么都学不到。您必须添加额外的功能并调查您的数据是否有小的贝叶斯错误。目前,这比灾难还要糟糕。这个大的贝叶斯错误说明您有模式、输入向量,它们与每个特征具有完全相同的组件,但标签不同。看看这里