数据挖掘 - 使用 RapidMiner 进行自然语言文本分类 - 吾爱随笔录

我是数据挖掘的新手，所以这对某些人来说可能听起来很简单。

我从事航空可靠性工程工作，拥有一组每天生成的关于系统故障和故障纠正的数据。该数据使用维护手动任务的数字标签（参考数据）按章节、章节和段落进行分类。然而，由于数据是由人手动输入的，有时会输入错误的章节/章节标签，需要手动检查以确保数据的有效性。

故障/解决数据以表格格式（CSV，Excel...）提供，我也有维护手册数据关键字，包括表格格式的章节/章节。

我的问题是，是否可以使用 RapidMiner 获取这些表格，交叉检查文本中的一些关键字（失败/纠正）并将它们与参考数据进行比较，并使用正确的参考标签（章节、章节）输出。 ..)，考虑到拼写错误、首字母缩写词和缩写。或者，是否有比 RapidMiner 更专业的程序/应用程序来执行这些功能？

示例：系统 X 上的故障已被纠正并记录在数据库中。系统 X 属于第 4 章第 33 节；但是，当输入数据时，该人将其放在第 3 章第 44 节下。我有一个文档，其中系统 X 的参考在第 4 章第 33 节下。RapidMiner 是否可以检查故障文本中的文本和更正文本并与预定义的列表进行交叉检查，其中系统 X 在第 4 章第 33 节下，并给我正确的章节/节的输出，考虑到拼写错误以及有些人写缩写和首字母缩写词不同的事实（例如, I.B.M// IBM. I.B.M)