如何结构化非结构化数据

数据挖掘 nlp 数据挖掘 结构化数据
2022-02-23 18:27:25

我正在分析推文并以非结构化格式收集它们。构建这些数据以便我可以开始数据挖掘过程的最佳方式是什么?有人建议使用 python 包,例如 spacy,但不知道如何使用它。

1个回答

自然语言处理中,根据预期任务选择数据表示和系统设计至关重要,没有通用的方法来表示适合每个应用程序的文本数据。这不是一个简单的技术问题,它是设计系统的重要组成部分。

构造文本数据的最简单方法是将句子或文档表示为词袋(BoW),即包含句子或文档中所有标记的集合。这样的集合可以用 One-Hot-Encoding (OHT) 在整个词汇表(所有文档中的所有单词)上表示,以获得结构化数据(特征)。可以应用许多预处理变体:删除停用词、用它们的引理替换词、过滤掉稀有词等(不要忽视它们,这些预处理选项会对性能产生巨大影响)。

尽管它们很简单,但 BoW 模型通常可以很好地保留文档的语义信息。然而,它们不能处理任何复杂的语言结构:否定、多词表达等。