我试图理解为什么朴素贝叶斯需要朴素,每个人都说朴素贝叶斯假设输入特征(预测变量)不相关,因此它们不相互依赖。
我想了解如果功能依赖会发生什么,即非天真(天真的相反部分)
如果我们有一个句子“你中了 100 万的彩票”,我们需要使用朴素贝叶斯将其分类为垃圾邮件而不是垃圾邮件。
p(y|x)=p(x|y).p(y)
在似然部分,我们将概率建模为 p(x|y)
here x="You won lottery for 1million" and y=spam or not spam
p('You won lottery for 1million'|y=spam)
p('You won lottery for 1million'|y=notspam)
在不考虑 X 中事件的独立性的情况下,编写此概率并找到其值的正确方法是什么?
应该写成
**to find probaiblity of spam given feature are depenent**
p('You |won, lottery, for, 1million,spam) *
p('won| lottery, for, 1million,spam) *
p('lottery| for, 1million,spam)*
p(for| 1million,spam)*
p( 1million|spam)
**to find probaiblity of not spam given feature are depenent**
p('You |won, lottery, for, 1million,notspam) *
p('won| lottery, for, 1million,notspam) *
p('lottery| for, 1million,notspam)*
p(for| 1million,notspam)*
p( 1million|notspam)
考虑到它的事件相互依赖,这是找到 X 概率的正确方法吗?垃圾邮件/非垃圾邮件是否也应该包含在依赖部分中?
找到上述 2 个概率的问题是什么,为什么天真的必须投入并使特征独立才能计算概率如此困难。