文本分析是否有流程可遵循?

数据挖掘 nlp 文本挖掘 文本过滤器
2021-09-24 20:18:03

我正在尝试绘制在文本分析项目中要遵循的流程(如模板)。到目前为止,我已经想出了这个。

文本分析步骤

  1. 数据采集
    • 获取数据
    • 将数据转换为纯文本
  2. 删除重复条目
  3. 文本解析和提取特征
    • 代币化
    • 解析
      1. 删除 HTML 字符
      2. 将复杂符号解码为 UTF-8
      3. 拼写检查
      4. 撇号查找
      5. 去除标点符号
      6. 删除表情/表情符号
      7. 拆分附加的单词
      8. 俚语查询
      9. 删除网址
    • Lemmatization / Stemming(令牌的规范化)
    • 词性标注
  4. 文本过滤
    • 删除起始词
    • 删除停用词
    • 根据频率删除不相关的词
  5. 文本转换
    • 词袋表示
    • 特遣部队
  6. 文本挖掘/分析(无论需要哪种分析)
    • 文本分类
    • 文本分类(监督)
    • 主题建模(无监督)
    • 文本聚类
    • 相似性分析
    • 情绪分析

这个流程的步骤顺序是否正确?
我缺少哪些步骤/子步骤?
在进行任何文本分析项目时,流程看起来是否像模板或首选流程图?

编辑:更新的流程

1个回答

这是一个很好的起点!Daniel Jurafsky 的著作“语音和语言处理”虽然没有在“流程”中进行分类,但通过与分析文本相关的各种计算和步骤进行了讨论,您会发现这些计算和步骤很有用。

我之所以说未提供流程流,是因为 Jurafsky 非常详细地解释了在整个管道中应用的特定方法的优缺点,以及这会如何改变结果。例如,在计算困惑度(量化语言模型预测语句中下一个单词的能力的逆度量)时,您应该捕获语句的开头、结尾和停止词 - 与其他需要删除的方法相反的停用词。