我对解析半结构化文本感兴趣。假设我有一个带有以下标签的文本:year_field、year_value、identity_field、identity_value、...、address_field、address_value 等等。
这些字段及其关联值可以在文本中的任何地方出现,但通常它们彼此靠近,并且更一般地,文本以(非常)粗糙的矩阵组织,但通常该值就在关联字段之后,最终中间有一些不感兴趣的信息。
不同格式的数量可以多达几十个,而且不是那么死板(不要计算间距,而且可以添加和删除一些信息)。
我正在寻找机器学习技术来提取所有感兴趣的(字段、值)。
我认为度量学习和/或条件随机场 (CRF) 可能会有很大帮助,但我对它们没有实际经验。
有没有人遇到过类似的问题?
关于这个主题的任何建议或文献?