有很多文本文档(自然语言,非结构化),用一些语义元数据注释它们的可能方法是什么?例如,考虑一个简短的文档:
I saw the company's manager last day.
为了能够从中提取信息,必须使用附加数据对其进行注释以减少歧义。查找此类元数据的过程没有问题,因此假设它是手动完成的。问题是如何以一种可以更方便/更有效地对其进行进一步分析的方式存储这些数据?
一种可能的方法是使用 XML 标记(见下文),但它似乎过于冗长,并且可能有更好的方法/指南将此类元数据存储在文本文档中。
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.