我有大约 9 个字符串特征,我使用字符串索引器编制了索引,并使用向量汇编器来获取特征向量,并使用归一化器对特征进行归一化。这些是我所做的转换并使用朴素贝叶斯分类器作为估计器,所有上述操作都包含在管道模型中。我对大约 30 万个样本进行了训练,并在 2 万个样本上进行了测试,该模型为所有样本预测了相同的标签。我精心挑选的功能是这个问题吗?或者任何可用的调整参数?我发现了一个平滑参数,我将其设置为 1.0 我应该增加还是减少以提高模型精度?请帮忙
如何提高朴素贝叶斯多类分类精度?
数据挖掘
机器学习
阿帕奇火花
多类分类
朴素贝叶斯分类器
多标签分类
2022-03-12 05:34:39
2个回答
如果您是手动编码,并且发现您对测试集中的所有内容都得到了相同的预测,那么您可能会乘以特征概率,直到您达到环境的浮点限制,最终得到一个零值,这可能与您的标签之一匹配。
例如,
尝试添加日志值。
例如,
我认为您应该阅读更多关于朴素贝叶斯分类器理论(http://scikit-learn.org/stable/modules/naive_bayes.html),因为选择正确的似然分布非常重要,. 如果很难选择正确的似然分布,您可以尝试使用几个不同的分布,看看是否可以改进结果。
其它你可能感兴趣的问题