“非结构化数据”的替代名称是什么?

数据挖掘 文本挖掘 定义 术语
2021-10-13 17:34:20

我现在正在写我的论文,并且有一段时间——由于缺乏合适的选择——我一直坚持使用“非结构化数据”来引用自然、自由流动的文本,例如维基百科的文章。

这个命名法从一开始就困扰着我,因为它引发了一场我不想参与的辩论。也就是说,“非结构化”意味着自然语言缺乏结构,而它没有——最明显的是语法。它也给人一种消极的印象,因为它与“结构化”相反,后者被认为是积极的。这不是我论文的重点,尽管“非结构化”部分本身起着重要作用。

我完全同意这篇文章的作者,但他提出了除了“丰富的数据”之外的其他选择,这并没有涵盖我的观点。我试图说明的一点是,文本缺乏传统的数据库式(例如表格)数据结构,每条数据都具有清晰的数据类型和语义,易于使用计算机程序进行解释。当然,我想把这个定义浓缩成一个术语,但到目前为止,我一直未能成功地提出或发现文学中可接受的分类法。

3个回答

“原始数据”就是我们在 NLP 中所说的。

将“非结构化数据”与表格数据(如“非表格数据”)对立起来是一个坏主意,因为您还必须消除其他替代方案(例如,“非表格和非图表和... 数据”)。“纯文本”(我的选择)或“原始文本”或“原始数据”听起来不错。

对于数据库中固定字段和文本块的组合,我只想说“文本”或“文本”数据和“混合数据”。