机器学习中是否会出现导致模型变得不那么精确的反馈循环?

数据挖掘 机器学习
2022-03-08 11:21:10

在有关 ML 算法的讨论中,例如犯罪预测,非专家经常声称反馈回路存在问题,导致模型出现偏差并给出错误的结果。基本上是说模型的预测更加关注该类型的数据,并且在使用结果进行重新训练时,预测变得偏斜,因此更加关注相同的数据类型,依此类推。

这是真的?

我认为用新数据重新训练模型会使其更加精确,无论这些数据是如何产生的。

2个回答

是的,这是一个真正的问题,一旦系统被真实用户使用,就会显现出来。

最突出的例子是 News Echo Chamber(由基于 ML 的推荐系统强调)

ML 算法看到您喜欢与某个观点相关的新闻/视频,您观看更多此类视频并且模型变得更加确信您的选择。因此,它建议更多具有相似观点的内容。

https://en.wikipedia.org/wiki/Echo_chamber_(媒体)

http://theconversation.com/explainer-how-facebook-has-become-the-worlds-largest-echo-chamber-91024

https://www.theguardian.com/science/blog/2017/dec/04/echo-chambers-are-dangerous-we-must-try-to-break-free-of-our-online-bubbles

https://www.quora.com/Would-you-say-that-Quoras-generated-news-feed-suffers-from-an-echo-chamber-dilemma

是的,反馈循环可以在机器学习中以几乎相同的方式发生。当模型的预测影响未来的标签时,就会发生这种情况。

假设我们正在预测不同社区的犯罪率。一个社区的数据有偏差,导致其犯罪率被预测为高于实际水平。这导致该社区有更多的警察存在,这反过来又会导致发现更多的真实犯罪,而不是在有偏见的模型引起的没有受到额外关注的地区。即使最初的数据错误/偏差被消除,这种额外发现的犯罪也会出现在任何要训练的新模型中。有偏见的模型强制执行了自己的偏见并产生了新的数据来支持它。