确定数据集的完整性

数据挖掘 数据集 统计数据 研究
2022-01-21 17:14:20

我希望您在确定数据集的完整性方面有一些研究或经验。我正在尝试使用我自己抓取的 Twitter 数据集,并希望了解完整性。显然,我会错过一些数据,但我想知道是否有公式或方法来计算完整性的概率。

1个回答

如果您正在谈论探索您的数据以寻找缺失数据的模式,您可以尝试使用自组织地图 [ https://en.wikipedia.org/wiki/Self-organizing_map],这是一种特殊的神经网络。这是一篇小型研究论文,稍微解释了这个概念。这是另一个 [链接][3],其中包含历史信息和一些关于该主题的原始论文的链接,特别是 Kohonen等人的论文。

来自维基百科:

自组织映射不同于其他人工神经网络,因为它们应用竞争学习而不是纠错学习(例如使用梯度下降的反向传播),并且在某种意义上它们使用邻域函数来保留输入的拓扑属性空间。这使得 SOM 可用于可视化高维数据的低维视图......

本质上,此方法将允许您在数据中查找模式。从那里您可以确定您在数据集中处理的完整性级别。

特别是对于您的 Twitter 数据示例,我想 JSON 数据中有许多字段缺少值。也许有些用户选择不填写他们的性别或年龄等。可视化您的数据以及计算汇总统计数据将帮助您绘制数据的整体图景。当您拥有高维数据时,使用工具在低维空间中对其进行可视化总是很方便的。希望这对你有帮助!