分析调查数据以进行预测

数据挖掘 预测建模
2022-02-14 10:44:19

我的调查数据类似于:

|-------------| Q1a | Q1b | Q1c | Q2a | Q2b | Q2c | Classification
| Respondent  | 1   | 0   | 0   | 1   | 0   | 0   | Red
| Respondent  | 0   | 0   | 1   | 1   | 0   | 0   | Green
| Respondent  | 0   | 1   | 0   | 0   | 0   | 1   | Yellow

我正在尝试预测新受访者的分类。目前我正在使用朴素贝叶斯,并且准确率非常差(~20%)。我没有太多的培训数据,而且培训数据是从非标准来源手工抓取的(公司内部程序在这里一团糟)。

我正在寻找其他方法来预测分类。

我正在考虑为每个问题分配权重,并以某种方式根据这些神奇地预测结果。虽然我真的不知道从哪里开始学习如何做到这一点,以及它是否适合这些数据。我在这方面的背景很少:(

关于在没有训练数据的情况下预测分类列的任何想法或技巧?

1个回答

你能否提供更多关于你正在训练的数据大小的信息(如果它真的是你预测的 6 个参数)?如果它真的是 6 个问题的二进制答案(如您所建议的 1、0),那么有 2^6(即 64)个唯一答案组合,并且要确定它们的概率,您需要每个组合有多个条目。标准误差比例为 1/sqrt(n),因此要达到 10% 的准确度,您将需要大约 6,400 个输入,根据您的描述,这听起来比您可能拥有的数据更多。您可能需要花时间来自动化数据收集。

另一方面,如果您有一个相当大的数据集并且希望有一些替代模型,那么增强决策树和随机森林模型听起来都是解决这个问题的好选择。