度量学习和信息检索

数据挖掘 文本挖掘 信息检索
2021-10-07 20:52:26

我对解析半结构化文本感兴趣。假设我有一个带有以下标签的文本:year_field、year_value、identity_field、identity_value、...、address_field、address_value 等等。

这些字段及其关联值可以在文本中的任何地方出现,但通常它们彼此靠近,并且更一般地,文本以(非常)粗糙的矩阵组织,但通常该值就在关联字段之后,最终中间有一些不感兴趣的信息。

不同格式的数量可以多达几​​十个,而且不是那么死板(不要计算间距,而且可以添加和删除一些信息)。

我正在寻找机器学习技术来提取所有感兴趣的(字段、值)。

我认为度量学习和/或条件随机场 (CRF) 可能会有很大帮助,但我对它们没有实际经验。

有没有人遇到过类似的问题?

关于这个主题的任何建议或文献?

1个回答

条件随机场 (CRF) 可用于分割/标记顺序问题。尝试 CRF++:另一个 CRF 工具包,一个简单、可定制的开源实现条件随机场 (CRF)

您可以标记和创建标记的训练语料库并使用 CRF++

您还需要创建一个功能模板

详情请参阅:http ://taku910.github.io/crfpp/ 。

检查来自 CoNLL 共享任务(PoS 标记)的数据示例。