我现在正在写我的论文,并且有一段时间——由于缺乏合适的选择——我一直坚持使用“非结构化数据”来引用自然、自由流动的文本,例如维基百科的文章。
这个命名法从一开始就困扰着我,因为它引发了一场我不想参与的辩论。也就是说,“非结构化”意味着自然语言缺乏结构,而它没有——最明显的是语法。它也给人一种消极的印象,因为它与“结构化”相反,后者被认为是积极的。这不是我论文的重点,尽管“非结构化”部分本身起着重要作用。
我完全同意这篇文章的作者,但他提出了除了“丰富的数据”之外的其他选择,这并没有涵盖我的观点。我试图说明的一点是,文本缺乏传统的数据库式(例如表格)数据结构,每条数据都具有清晰的数据类型和语义,易于使用计算机程序进行解释。当然,我想把这个定义浓缩成一个术语,但到目前为止,我一直未能成功地提出或发现文学中可接受的分类法。