我正在寻找一种解析半结构化文本数据的方法,即格式错误的数据,但通常具有矩阵的视觉结构,该矩阵的内容和项目数量可能会有很大差异,可能有或没有标题,这可能有时按列或按行解释,依此类推。
我已阅读有关 WHISK 信息提取论文:https ://homes.cs.washington.edu/~soderlan/soderland_ml99.pdf
但不幸的是,它不是很详细,我无法找到实现它的真实系统,甚至是代码片段。
有人知道我在哪里可以找到这样的帮助吗?或者建议一种可能适合我的问题的替代方法?
预先感谢您的回复!