注意:如果有人能告诉我为什么这个答案被否决,我将不胜感激。我是来学习的,但并非完全没有经验,并且确实考虑过。如果我弄错或不清楚 - 我想以何种方式听到。
事情是否“出错”取决于过程的目标是什么。但是,从强烈的意义上说,根本没有什么事情会出错。问题更多 - 效果如何?
假设有一组东西属于几个类。每个事物都有几个具有多元高斯分布的实值属性。每个类的属性的均值和方差是不同的。通过选择一个类然后选择属性来选择属性元组的集合。
为简单起见,认为它们具有两个属性并将它们自己放置在一个平面上。在平面上的每个点都有条件概率,即每个类中都有一个点。可以说,对于在平面上某个点测量的事物的类别的最佳猜测是具有最高条件概率的类别。这为类提供了类似于 Voronoi 图的东西。
但是,该图的形状受类概率的先验选择的影响。在抽样总体中,受过训练的分类器响应的概率是总体中的频率。
所以——如果在给定的两个类别中只有 10% 的人口,并且你从每个类别中抽取相同的数字——那么你会偏向分类器,使其更有可能选择 10% 的类别。
健全性检查——如果正面包含整个训练集,那么模型将锁定只是将所有内容都称为正面。如果否定包含整个训练集,那么模型将锁定只是将所有内容称为否定。在这两者之间,我们可以预期会猜到一部分正面和负面。
这是对还是错,取决于当它是正确的类时正确选择这个类更重要 - 还是避免错误选择它更重要。