数据挖掘 - 对调查响应文本 SVM 进行分类 - 吾爱随笔录

数据挖掘机器学习 r 文本挖掘支持向量机

2021-10-03 19:22:10

我对一个开放式调查问题有 800 条回复。每个响应根据 70 个类别的列表分为 3 个类别。这些类别是“更强大的领导力”、“更好的客户服务”、“计划”等……

我的问题是，我是否可以将其用作训练数据集，以便开发一个模型，以便在我们获得更多调查回复时在未来使用？我们希望能够将每个调查响应标记、标记或分类到（最多）70 个类别中的 3 个。

这甚至可能吗？还是我必须用简单的词来使用NB？你能指导我学习教程、例子等吗？

在本练习中使用 R。

2个回答

分配 70 个类别中的 ~3 个意味着您将执行多标签分类。

最后，使用朴素贝叶斯或 SVM 并没有太大区别；它们都是将提供的自变量（您的特征空间）转换为希望正确的因变量（目标类）的算法系列。

问题是如何构建一个好的特征空间。文本挖掘中最先进的方法是（或曾经）首先对单词进行标记，去除标点符号和停用词，对它们进行词干或词形还原，创建这些词的相对频率以及这些词的频率的词袋模型'二元组或三元组。

然后在上面运行你的分类学习器。假设生成的特征空间表可能会变得非常宽（很多单词和单词组合），因此您可能需要考虑某种形式的降维。

当然，对于要分类的每个新调查，您必须使用完全相同的参数重复相同的过滤过程。

你能用这些反应澄清你试图预测的内容吗？

我最初的反应是，通过开放式调查，您将很难实施分类算法。开放性意味着您没有有限的特征空间，因此您无法将响应通常转换为特征矩阵。

但是，可能还有其他方法可以完成这项工作。例如，如果您有 5 个问题，您可以使用情绪分析或其他方法来提出有关开放式响应的元数据，这可以帮助您设计分类方案。

其它你可能感兴趣的问题