使用机器学习的半结构化文本解析

数据挖掘 文本挖掘 信息检索 解析
2021-10-12 03:36:23

我正在寻找一种解析半结构化文本数据的方法,即格式错误的数据,但通常具有矩阵的视觉结构,该矩阵的内容和项目数量可能会有很大差异,可能有或没有标题,这可能有时按列或按行解释,依此类推。

我已阅读有关 WHISK 信息提取论文:https ://homes.cs.washington.edu/~soderlan/soderland_ml99.pdf

但不幸的是,它不是很详细,我无法找到实现它的真实系统,甚至是代码片段。

有人知道我在哪里可以找到这样的帮助吗?或者建议一种可能适合我的问题的替代方法?

预先感谢您的回复!

1个回答

如果没有数据样本,则不清楚数据的结构是什么以及适合处理它的工具。

根据我的经验,这里有一些盲目的建议:

  • 如果您只是需要一些灵活的文本记录解析,例如某个字段的可变重复数,或者字段的条件解析,那么您应该查看这个python库:http ://construct.readthedocs.org/en/latest/ it允许您首先定义数据的分层结构,然后应用此结构来解析文本文件中的信息。它在解析二进制文件时特别有用。
  • 如果您正在寻找一种能够真正“理解”您的文本数据并以智能方式“推断”结构的算法。那么您可能想尝试基于图形的方法: http: //kavita-ganesan.com/opinosis