问题
我曾尝试在犯罪数据的标记数据集上使用朴素贝叶斯,但结果非常差(7% 的准确度)。朴素贝叶斯的运行速度比我一直使用的其他算法快得多,所以我想尝试找出分数如此低的原因。
研究
阅读后我发现朴素贝叶斯应该与平衡数据集一起使用,因为它对频率较高的类有偏见。由于我的数据不平衡,我想尝试使用互补朴素贝叶斯,因为它专门用于处理数据倾斜。在描述该过程的论文中,该应用程序用于文本分类,但我不明白为什么该技术在其他情况下不起作用。你可以在这里找到我所指的论文。简而言之,这个想法是根据类没有出现的情况使用权重。
在做了一些研究之后,我能够在 Java 中找到一个实现,但不幸的是我不知道任何 Java,而且我对算法的理解还不够好,无法自己实现。
问题
在哪里可以找到python中的实现?如果那不存在,我应该如何自己实施?