您如何确定数据的质量?

数据挖掘 数据集 数据清理
2022-03-04 10:41:50

您如何评估数据的质量?在数据科学家的世界里,我们遇到了几个数据。由于各种原因,我们经常在没有正式评估其质量的情况下处理数字。其中一个原因是我们需要按时提交报告和出版物。我想知道是否有人采用或遇到了有助于在数据中发现问题的方法/指南(节省时间的技巧),以便我们可以有效地分析数据。请分享您的经验,提示等。

2个回答

这完全取决于您希望或打算如何处理您的数据,以及您所说的 tag 是什么意思data-cleaning这可能涉及清理数据的技术过程,即修复损坏的数据XML,以及手动删除异常值等。

您是否要执行统计来衡量某些变量之间的相关性?

或者:您是否要将数据包含到机器学习解决方案中?

在任何情况下,您都可以绘制描述性统计数据以了解数据质量,例如:

  1. 检测异常值的箱线图
  2. 标准差、均值、众数、中位数来评估它是否正态分布
  3. 更多,从我的头顶不知道

请记住,这些衡量标准让您对数据的质量有一个印象,但即使是好的衡量标准也可能来自糟糕的数据,反之亦然。

简而言之,评估数据质量的最佳方法是评估结果的质量,这些结果通常是多次实验后获得的。只有这样,您才能看到您的数据在多大程度上适合您要解决的问题。那 - 或者你需要弄脏你的手并在使用之前对数据进行定性检查。

数据(假设数量很大)通常用于识别数据描述的现象中的某些模式。用(研究)问题提出的解决方案假设来描述您的任务非常重要然后,您可以评估数据是否适合您的特定(研究)项目。请记住,理论上,您可以尝试在相同的数据上回答多个问题,或者在不同的数据集上回答相同的问题。目标是正确的平衡。

您的问题非常广泛,因此我不会提供非常具体的答案。您要求“节省时间的技巧”,但有很多,它们取决于上下文。

相反,我将提供一组在大多数情况下有用的通用启发式方法。

  1. 从“质量”对您的分析以及因此对您的数据意味着什么的规范或定义开始。
  2. 使用 1) 中的定义/规范来列举数据收集和记录过程中可能出现 的错误、遗漏、失误、修改等类型。此枚举将始终是临时的,因为可能存在您最初没有想到的质量下降的方式。
  3. 使用 2) 定义检查和测试方法,这些方法可能揭示这些类型的错误、遗漏等的存在。默认方法是“目测” ——让知识渊博、有经验的人查看数据,看看它是否看起来对。
  4. 当您发现错误、遗漏等时,请尝试确定根本原因和生成过程例如,数十列中的错误数据是由 ETL 作业中的“逐一”错误导致的,该错误从源文件生成/翻译数据。
  5. 使用 2)、3) 和 4),定义可能纠正错误数据减轻数据质量问题影响的流程。例如,姓名的Soundex转换可以减轻拼写错误的影响,但不能减轻人们误用“姓名”字段输入注释:例如“Nelson - DO NOT CALL”。请注意,您可能用来纠正或减轻错误或问题的任何过程都可能产生新的错误或问题(例如,数字数据的截断)。
  6. 执行分析后,回顾数据并询问“这些结果是否是数据质量问题的结果,而不是真实/准确/适当的数据?” 换句话说,仔细检查.