手动数据清理工具

数据挖掘 数据清理 注解
2022-03-03 13:17:09

我正在为形式的地理空间数据编写 ETL 管道 place_name,address,longitude,latitude,id_linking_to_other_dataset

作为管道的最后一步,我想应用审阅者提交的手动转换。其中一些转换可能是(借用谷歌地图建议编辑文档):

  • 更改地点的名称、位置或将其链接到另一个数据集的 ID
  • 将地点标记为私有或不存在
  • 将地点标记为已移动或重复

我没有大量记录(大约 5000 条),但想使用最佳实践来管理此手动更正。理想情况下,更正可以作为 ETL 管道中的最后一步进行版本控制和应用(即使管道的其他部分发生更改)。

有很多很好的工具可以为 ML 传递数据注释,但我没有看到用于此类更正的资源。对有用工具的想法?

1个回答

我建议将其加载到数据框中,然后使用标准的 pandas 功能。( str.replace, loc, iloc)

我的回答有点含糊,很抱歉,但我需要了解更多有关 ETL 管道的技术细节以及您想要更改的数据格式。