数据挖掘 - 文本分析是否有流程可遵循？ - 吾爱随笔录 - 问答

文本分析是否有流程可遵循？

数据挖掘 nlp 文本挖掘文本过滤器

2021-09-24 20:18:03

我正在尝试绘制在文本分析项目中要遵循的流程（如模板）。到目前为止，我已经想出了这个。

文本分析步骤

数据采集
- 获取数据
- 将数据转换为纯文本
删除重复条目
文本解析和提取特征
- 代币化
- 解析
  1. 删除 HTML 字符
  2. 将复杂符号解码为 UTF-8
  3. 拼写检查
  4. 撇号查找
  5. 去除标点符号
  6. 删除表情/表情符号
  7. 拆分附加的单词
  8. 俚语查询
  9. 删除网址
- Lemmatization / Stemming（令牌的规范化）
- 词性标注
文本过滤
- 删除起始词
- 删除停用词
- 根据频率删除不相关的词
文本转换
- 词袋表示
- 特遣部队
文本挖掘/分析（无论需要哪种分析）
- 文本分类
- 文本分类（监督）
- 主题建模（无监督）
- 文本聚类
- 相似性分析
- 情绪分析

这个流程的步骤顺序是否正确？
我缺少哪些步骤/子步骤？
在进行任何文本分析项目时，流程看起来是否像模板或首选流程图？

编辑：更新的流程

1个回答

这是一个很好的起点！Daniel Jurafsky 的著作“语音和语言处理”虽然没有在“流程”中进行分类，但通过与分析文本相关的各种计算和步骤进行了讨论，您会发现这些计算和步骤很有用。

我之所以说未提供流程流，是因为 Jurafsky 非常详细地解释了在整个管道中应用的特定方法的优缺点，以及这会如何改变结果。例如，在计算困惑度（量化语言模型预测语句中下一个单词的能力的逆度量）时，您应该捕获语句的开头、结尾和停止词 - 与其他需要删除的方法相反的停用词。

其它你可能感兴趣的问题

上一篇将业务问题转化为机器学习解决方案：工作添加网站下一篇根据单个预测计算平均值的置信区间