显而易见的解决方案是确保训练数据是平衡的——但在我的特殊情况下这是不可能的。在这种情况下可以执行哪些更正?
我知道我的训练数据严重偏向于某个特定的班级,比如说,我无法改变这一点。此外,标签非常嘈杂。以这条信息为条件,我可以通过调整训练过程本身/其他东西来纠正训练数据中的偏差吗?
数据来自实验(来自电子显微镜),我无法收集更多数据。它总是会以这种方式存在偏见,因此替代偏见也不是一种选择。很抱歉,由于保密原因,我无法提供更多详细信息。
显而易见的解决方案是确保训练数据是平衡的——但在我的特殊情况下这是不可能的。在这种情况下可以执行哪些更正?
我知道我的训练数据严重偏向于某个特定的班级,比如说,我无法改变这一点。此外,标签非常嘈杂。以这条信息为条件,我可以通过调整训练过程本身/其他东西来纠正训练数据中的偏差吗?
数据来自实验(来自电子显微镜),我无法收集更多数据。它总是会以这种方式存在偏见,因此替代偏见也不是一种选择。很抱歉,由于保密原因,我无法提供更多详细信息。
我觉得从您提供的信息(某种有偏见的数据)中,您无法获得您想要的可靠答案(可以进行哪些算法更改)。
一般来说,这些方法之所以像 DNN 的工作是因为它们从数据中学习。你训练它做的是它的能力,几乎没有人可以做它来“平衡”它与它从未见过的数据类别。这就像训练某人做代数然后给他们一个三角测试。当然,这都是数学,但如果没有适当的学习,你永远无法期待太多。
话虽如此,您或许应该看看其他方法来处理这些数据或解决问题。鉴于您无法收集公正的数据,并且由于机密性而无法解释更多,我真的怀疑这里的任何人都可以帮助您。
我最多可以给你看这篇文章:“有偏类分布的数据分类”。
并建议考虑到不幸的情况,您当前的方法可能不是最合适的。