我对一个开放式调查问题有 800 条回复。每个响应根据 70 个类别的列表分为 3 个类别。这些类别是“更强大的领导力”、“更好的客户服务”、“计划”等……
我的问题是,我是否可以将其用作训练数据集,以便开发一个模型,以便在我们获得更多调查回复时在未来使用?我们希望能够将每个调查响应标记、标记或分类到(最多)70 个类别中的 3 个。
这甚至可能吗?还是我必须用简单的词来使用NB?你能指导我学习教程、例子等吗?
在本练习中使用 R。
我对一个开放式调查问题有 800 条回复。每个响应根据 70 个类别的列表分为 3 个类别。这些类别是“更强大的领导力”、“更好的客户服务”、“计划”等……
我的问题是,我是否可以将其用作训练数据集,以便开发一个模型,以便在我们获得更多调查回复时在未来使用?我们希望能够将每个调查响应标记、标记或分类到(最多)70 个类别中的 3 个。
这甚至可能吗?还是我必须用简单的词来使用NB?你能指导我学习教程、例子等吗?
在本练习中使用 R。
分配 70 个类别中的 ~3 个意味着您将执行多标签分类。
最后,使用朴素贝叶斯或 SVM 并没有太大区别;它们都是将提供的自变量(您的特征空间)转换为希望正确的因变量(目标类)的算法系列。
问题是如何构建一个好的特征空间。文本挖掘中最先进的方法是(或曾经)首先对单词进行标记,去除标点符号和停用词,对它们进行词干或词形还原,创建这些词的相对频率以及这些词的频率的词袋模型'二元组或三元组。
然后在上面运行你的分类学习器。假设生成的特征空间表可能会变得非常宽(很多单词和单词组合),因此您可能需要考虑某种形式的降维。
当然,对于要分类的每个新调查,您必须使用完全相同的参数重复相同的过滤过程。
这是关于多标签文本分类的另一批很好的答案。
你能用这些反应澄清你试图预测的内容吗?
我最初的反应是,通过开放式调查,您将很难实施分类算法。开放性意味着您没有有限的特征空间,因此您无法将响应通常转换为特征矩阵。
但是,可能还有其他方法可以完成这项工作。例如,如果您有 5 个问题,您可以使用情绪分析或其他方法来提出有关开放式响应的元数据,这可以帮助您设计分类方案。