数据挖掘 - 当我们不能信任我们的人类分类器时该怎么办？ - 吾爱随笔录

数据挖掘机器学习神经网络深度学习

2022-03-05 14:42:30

假设我们要设计一个可以诊断皮肤癌的神经网络。我们希望这个神经网络考虑我们聘请的医生在标记时错误分类我们的一些图像的可能性。我们如何设计我们的神经网络？

2个回答

首先，神经网络擅长处理“标签噪声”。我目前正在移动/度假，所以提醒我周五搜索报纸。

其次，更重要的问题是如何获得好的基本事实。如果没有良好的基本事实，您将无法评估您的模型，无论它们有多好。

我看到了方法：

(1) 让多位专家给这些东西贴上标签。然后，您可以使基本事实成为概率，而不是简单的标签。如果 9 位专家说它是癌症，而 1 位专家说不是，你会用 90% 来标记它

(2) 等待。如果您可以访问患者数据，一年后可能会更加明显（尤其是在未治疗的情况下）

(3) 其他诊断方法：我不是医生，但我很确定有可靠的侵入性方法来诊断癌症

我有以下解决方案：

如果您有丰富的数据，您可以将它们打乱并制作验证和训练数据。之后，你的神经网络应该利用泛化技术来避免过度拟合训练数据。通过这样做，您可能会在嘈杂的情况下获得相对可接受的性能。
另一种技术是评估贝叶斯误差。这与神经网络没有任何关系。它只是试图在问题的特征空间中调查有多少百分比的数据具有误导性，具有相同的输入模式和相互矛盾的标签。
另一种方法是使用现有模型来验证数据集。

其它你可能感兴趣的问题