数据挖掘 - 使用机器学习的半结构化文本解析 - 吾爱随笔录

数据挖掘文本挖掘信息检索解析

2021-10-12 03:36:23

我正在寻找一种解析半结构化文本数据的方法，即格式错误的数据，但通常具有矩阵的视觉结构，该矩阵的内容和项目数量可能会有很大差异，可能有或没有标题，这可能有时按列或按行解释，依此类推。

但不幸的是，它不是很详细，我无法找到实现它的真实系统，甚至是代码片段。

有人知道我在哪里可以找到这样的帮助吗？或者建议一种可能适合我的问题的替代方法？

预先感谢您的回复！

1个回答

如果没有数据样本，则不清楚数据的结构是什么以及适合处理它的工具。

根据我的经验，这里有一些盲目的建议：

如果您只是需要一些灵活的文本记录解析，例如某个字段的可变重复数，或者字段的条件解析，那么您应该查看这个python库：http ://construct.readthedocs.org/en/latest/ it允许您首先定义数据的分层结构，然后应用此结构来解析文本文件中的信息。它在解析二进制文件时特别有用。
如果您正在寻找一种能够真正“理解”您的文本数据并以智能方式“推断”结构的算法。那么您可能想尝试基于图形的方法： http: //kavita-ganesan.com/opinosis

其它你可能感兴趣的问题