我的调查数据类似于:
|-------------| Q1a | Q1b | Q1c | Q2a | Q2b | Q2c | Classification
| Respondent | 1 | 0 | 0 | 1 | 0 | 0 | Red
| Respondent | 0 | 0 | 1 | 1 | 0 | 0 | Green
| Respondent | 0 | 1 | 0 | 0 | 0 | 1 | Yellow
我正在尝试预测新受访者的分类。目前我正在使用朴素贝叶斯,并且准确率非常差(~20%)。我没有太多的培训数据,而且培训数据是从非标准来源手工抓取的(公司内部程序在这里一团糟)。
我正在寻找其他方法来预测分类。
我正在考虑为每个问题分配权重,并以某种方式根据这些神奇地预测结果。虽然我真的不知道从哪里开始学习如何做到这一点,以及它是否适合这些数据。我在这方面的背景很少:(
关于在没有训练数据的情况下预测分类列的任何想法或技巧?