我过去读过的大部分材料通常都假设训练集是完美无缺的。然而,我所得到的似乎并非如此。打算发送到训练集中的数据通常是有问题的(我什至不知道如何开始区分好坏数据)。为了提高数据的有效性,我花费了更多的时间来尝试预处理文件,而不是实际构建原型。
我只转储了声称更好的部分数据。仍然有来自其他来源的数据来补充第一组训练数据中缺失的部分。考虑到数据量,我几乎不可能在它们上花费太多时间。
所以问题是,人们如何处理现实生活中非常可怕、不一致的数据(假设我正在处理地址,由于糟糕的城市规划或缺乏明确的指示,人们经常写错误的邮政编码,拼写错误的社区名称,加上数据被excel“自动更正”,使得“1-2”变成“1-Feb”等等)?具体来说,在给定训练集(和交叉验证集)的质量有问题的情况下,如何确保训练分类器的质量?