我正在尝试绘制在文本分析项目中要遵循的流程(如模板)。到目前为止,我已经想出了这个。
文本分析步骤
- 数据采集
- 获取数据
- 将数据转换为纯文本
- 删除重复条目
- 文本解析和提取特征
- 代币化
- 解析
- 删除 HTML 字符
- 将复杂符号解码为 UTF-8
- 拼写检查
- 撇号查找
- 去除标点符号
- 删除表情/表情符号
- 拆分附加的单词
- 俚语查询
- 删除网址
- Lemmatization / Stemming(令牌的规范化)
- 词性标注
- 文本过滤
- 删除起始词
- 删除停用词
- 根据频率删除不相关的词
- 文本转换
- 词袋表示
- 特遣部队
- 文本挖掘/分析(无论需要哪种分析)
- 文本分类
- 文本分类(监督)
- 主题建模(无监督)
- 文本聚类
- 相似性分析
- 情绪分析
这个流程的步骤顺序是否正确?
我缺少哪些步骤/子步骤?
在进行任何文本分析项目时,流程看起来是否像模板或首选流程图?
编辑:更新的流程