使用不准确(不正确)的数据集

数据挖掘 机器学习 数据挖掘 数据集
2021-10-07 20:53:54

这是我的问题描述:

“根据家庭收入和财富调查,我们需要找出收入和支出最多的前 10% 的家庭。但是,我们知道这些收集到的数据不可靠,因为存在许多错误陈述。尽管存在这些错误陈述,但我们有数据集中的一些特征当然是可靠的。但这些特定特征只是每个家庭财富信息的一小部分。

不可靠的数据意味着家庭对政府撒谎。这些家庭为了不公平地获得更多的政府服务而虚报他们的收入和财富。因此,原始数据中的这些欺诈性陈述将导致不正确的结果和模式。

现在,我有以下问题:

我们应该如何处理数据科学中的不可靠数据?有没有办法找出这些错误陈述,然后使用机器学习算法更准确地报告前 10% 的富人?- 我们如何评估我们在这项研究中的错误?既然我们有未标记的数据集,我应该寻找标记技术吗?或者,我应该使用无监督的方法吗?或者,我应该使用半监督学习方法吗?机器学习中是否有任何想法或应用试图提高收集数据的质量?请向我介绍任何可以帮助我解决此问题的想法或参考资料。

提前致谢。

4个回答

我已经阅读了@MaximHaytovich 的答案,这是一个很好的答案。我只想建议一些进一步的选项,这些选项在该答案中被概括为特征工程。我建议先尝试做显而易见的事情并在转换数据之前分析数据,以便为任何机器学习算法做好准备。首先查看数据并了解自己并假设哪些模式可能是欺诈的指标。您 100% 确定可靠的数据的性质是什么(在您发布的问题中提到有可靠的可用数据)以及它们对目标的信息量如何?您对数据越熟悉,就可以更好地解释从您使用的方法中获得的任何输出。尝试对收入或任何可能具有欺诈性的特征进行异常值分析,这些特征可能对进行异常值检测有意义。是否有任何可疑的缺失值?尝试进行聚类(您正在谈论的无监督算法之一)以查看是否有任何中间或不规则性。

在这种情况下,我看不到任何神奇地识别不可靠数据的方法。我不是专家,但我想到了两个想法:

  • 领域知识:家庭收入专家可能会根据经验描述一些识别可疑数据的一般规则,您可以尝试将这些转换为规则

  • 本福德定律- 我不知道它是否适合这种情况,但本福德定律在检测会计欺诈方面具有应用,基于数字值中出现的预期频率。可能没有用,特别是如果收入以四舍五入的数字(例如最接近的 1000)报告,但可能值得寻找灵感。

我不确定是否可以概括出人们如何错误地陈述他们向政府报告的财务信息。

这可能因国家和文化而异,如果该信息直接用于影响该个人获得的福利,则可能不会。

如果有来自更可信来源的家庭收入数据,例如税收收据,则可用于规范化自我报告的数据。

我建议您的案例使用异常值检测模型。特别是局部异常值因子。

局部异常值因子尝试检测行为类似于组内异常值的样本。它可能对您的情况有用。

我不知道调查的问题是什么,但例如,假设有 3 个孩子住在市中心,每周去 4 次电影院,形成一群人。假设该组的平均收入为每年 15 万美元。您在该组的调查结果中看到一个家庭并说每年 65k 美元,您可以轻松地说可能存在误报,因为这样的家庭收入较高。

局部异常值因素为您提供了这样的异常情况。我希望它清楚。您可以在Wikisklearn中找到更多信息