通过取第 n 个根,“标准化”加入 n 个事件的概率

机器算法验证 可能性 估计 正常化 几何平均数 同现
2022-04-03 11:29:23

我有一组事件,我猜你可以称之为复合事件。

每个事件都类似于:

A=A1A2...Ana

我通过假设组件的独立性来估计所有事件的概率

P(A)=i=1i=naP(Ai)

我有另一个复合事件(我实际上有数以千计的事件)

B=B1B2...Bnb

P(B)=i=1i=nbP(Bi)

但是由于nanb比较之间的概率AB似乎不公平。因为它的可能性要小得多n+1共现比n 更糟糕的是,当nanb更伟大

所以我开始使用:

P(A)=i=1i=na(P(Ai))1na

P(B)=i=1i=nb(P(Bi))1nb

我现在意识到这相当于替换AB, 其分量概率的几何平均值

这样做有意义吗?这是人们使用的实际技术吗?

1个回答

为了扩展我对您的特定应用程序的评论,这里有一个关于确定规范化是否合适的实际示例。该示例与概率无关,但总体上说明了标准化。

考虑一所学校有两个孩子,一个 10 岁,身高 4 英尺,另一个 15 岁,身高 5 英尺。

您想通过检查他们的身高来比较他们作为篮球运动员的成功。有两个示例应用程序。

  1. 你想知道今年谁更适合学校篮球队。这个 15 岁的孩子更高,所以他看起来像一个更好的球员。就像您的概率示例一样,您可能会说“这是不公平的,10 岁的孩子比较矮,但他的年龄很高,我们不能单纯根据身高进行比较”;的确,10 岁的孩子在他的年龄上很高,但这无关紧要,因为你想要一个优秀的篮球运动员参加今年的校队。

  2. 您可能要做的第二个比较是猜测哪个孩子更有可能成为 NBA 球星是他的生活。他们都不能立即成为职业篮球运动员,因此他们的身高并不能很好地衡量他们的表现。现在可以说“身高是一个不公平的比较,10岁的孩子就他的年龄来说很高”。你可以通过将他们的身高除以他们的年龄(或更复杂的东西)来标准化他们的身高,这可以让你更好地衡量他们在职业水平上比赛时谁会更高。

对于您关于概率的问题,您可能会发现归一化是比较两个概率的合适方法,但如果您只关心哪个事件发生的机会更大,那么事件并不是“不公平”的B一点也不。