对调查响应文本 SVM 进行分类

数据挖掘 机器学习 r 文本挖掘 支持向量机
2021-10-03 19:22:10

我对一个开放式调查问题有 800 条回复。每个响应根据 70 个类别的列表分为 3 个类别。这些类别是“更强大的领导力”、“更好的客户服务”、“计划”等……

我的问题是,我是否可以将其用作训练数据集,以便开发一个模型,以便在我们获得更多调查回复时在未来使用?我们希望能够将每个调查响应标记、标记或分类到(最多)70 个类别中的 3 个。

这甚至可能吗?还是我必须用简单的词来使用NB?你能指导我学习教程、例子等吗?

在本练习中使用 R。

2个回答

分配 70 个类别中的 ~3 个意味着您将执行多标签分类

最后,使用朴素贝叶斯或 SVM 并没有太大区别;它们都是将提供的自变量(您的特征空间)转换为希望正确的因变量(目标类)的算法系列。

问题是如何构建一个好的特征空间。文本挖掘中最先进的方法是(或曾经)首先对单词进行标记,去除标点符号和停用词,对它们进行词干词形还原,创建这些词的相对频率以及这些词的频率的词袋模型'二元组或三元组

然后在上面运行你的分类学习器。假设生成的特征空间表可能会变得非常宽(很多单词和单词组合),因此您可能需要考虑某种形式的降维

当然,对于要分类的每个新调查,您必须使用完全相同的参数重复相同的过滤过程。

这是关于多标签文本分类的另一批很好的答案

你能用这些反应澄清你试图预测的内容吗?

我最初的反应是,通过开放式调查,您将很难实施分类算法。开放性意味着您没有有限的特征空间,因此您无法将响应通常转换为特征矩阵。

但是,可能还有其他方法可以完成这项工作。例如,如果您有 5 个问题,您可以使用情绪分析或其他方法来提出有关开放式响应的元数据,这可以帮助您设计分类方案。