如何从不完整的数据集中找到一个或多个事件发生的概率

数据挖掘 统计数据
2021-09-22 20:47:00

我有一个提供人口信息的数据集。例如,我知道男性M在特定年龄范围内的比例 ( A),P(M & A)然后我知道居住在特定区域的男性比例 ( L) P(M & L),。

我对计算感兴趣的是P(M & A & L),这是男性在特定年龄范围内并生活在特定地区的比例。

使用贝叶公式我可以说

P(M & A & L) = P(M & A | L) P(L)

但我的数据集只给出P(L)而不是P(M & A | L). 但是,如果我假设M & A并且L是独立的,我有

P(M & A | L) = P(M & A) P(L)

P(M & A | L)如果我做出这个假设,误差有多大。您知道我可以在P(M & A | L)不假设独立性的情况下使用其他任何方法进行估算吗?

1个回答

贝叶斯定理适用于条件概率。 (一个|)=(一个).(|一个)()

您提出的问题是一起发生的多个事件之一。如果事件可以被认为是相互独立的,那么,

P(A & B & C) = P(A).P(B).P(C)

在你上面的问题中,

P(M & A & L) = P(M & A).P(L) = P(M).P(A).P(L)

根据您提供的数据,您应该有这些概率,或者可以通过适当的求和得出它们。

假设男性在 1-10 岁之间的概率为 0.1。此外,位置 L 中男性的概率为 0.2。所以位置 L 的 1-10 岁男性的概率是 0.1 X 0.2 = 0.02 。这是假设所有位置的年龄范围的概率分布相同。