如果我在这里使用贝叶斯定理,事件 A 表示 12 名员工是女性,事件 B 表示 8 名员工是女性,(假设员工成为男性或女性的机会相同)我得到,
这是这样做的正确方法吗?我特别困惑,因为员工的性别相互独立,但我使用其中 8 位是女性的信息来确定他们都是女性的概率。
如果我听起来很困惑并且没有意义,我很抱歉。
如果我在这里使用贝叶斯定理,事件 A 表示 12 名员工是女性,事件 B 表示 8 名员工是女性,(假设员工成为男性或女性的机会相同)我得到,
这是这样做的正确方法吗?我特别困惑,因为员工的性别相互独立,但我使用其中 8 位是女性的信息来确定他们都是女性的概率。
如果我听起来很困惑并且没有意义,我很抱歉。
混淆来自这样一个事实,即“鉴于 8 名员工是女性”有多种解释方式:
如果是 8 位特定的员工——比如说,职位 1 到 8 的员工——那么剩下的 4 位有种可能的性别配置,其中只有位是全女性,给出
如果是 12 名员工中的任意 8 名,则要求查看 12 名员工的所有配置,排除 5 名或更多男性的配置,并统计全部为女性的比例。
请注意,在这种解释下,有效配置中的每个员工都没有50% 的机会是男性/女性,因为我们假设每个有效配置中至少有 8 名女性。每个有效配置的机会均等。
这令人困惑的原因是我们的直觉假定了第一种解释,但问题的措辞方式暗示了第二种解释。
有一个著名的统计“悖论”源于同样的推理:
在一个有两个孩子的家庭中,其中一个是女孩,两个都是女孩的概率是多少?
大多数人认为答案是,但实际上是,原因与原始问题相同。如果您仍然感到困惑,请参阅此答案,该答案对悖论及其解决方案进行了更彻底的解释。
也许通过明确的假设给出一些更清晰的结构会有所帮助。假设我们愿意先验地假设每个人都是男性或女性,并且我们假设性别是相互独立的。那么组中的人的“女性指标”变量是:
因此,该组中的女性人数呈二项分布:
感兴趣的条件概率是:
你能从这里拿走吗?
你需要对你所做的陈述非常、非常、非常准确,否则任何结果都将是一派胡言——因为它们可能是对完全不同问题的正确答案。
我对您提出的问题的阅读导致答案“概率为零”。十二名员工中有八名是女性,因此四名是男性,因此并非所有员工都是女性。
让我们把它解释为“有人随机挑选了12名员工,数了数其中有多少是女性。答案是从8到12的数字”。或者“有人随机挑选了 12 名员工,然后挑选了其中的 8 名,并检查了他们的性别,八名都是女性”。情况大不相同,答案大不相同。
在第一种情况下,如果是九位女性,为什么我说“答案是从 8 到 12 的数字”而不是“答案是从 9 到 12 的数字”?如果是八位女性,我为什么不说“答案是从零到八的数字”?我可能有一个议程来给人留下很多员工或少数员工是女性的印象,所以如果你不知道议程,你可能会得到不同的答案。
假设我问你“你有几个孩子”,你回答“两个”。然后我说“我非常喜欢男孩而不是女孩。所以如果你告诉我你至少有一个男孩,我会给你 100 美元。如果你告诉我你有两个男孩,我会给你 10,000 美元. 如果你撒谎,我会射杀你”。如果你告诉我“我至少有一个男孩”,那么你有两个男孩的概率为零。
但是,你根本无法回答这个问题。我们不知道有多少员工——因为你的问题不清楚。我知道有 12 名员工参加了会议,但我不知道有多少人在会议之外。显然,越是在会议之外,她们都是女性的可能性就越小。而且我们不知道随机雇员是女性的概率。你猜的概率是 0.5。我会假设概率是一个未知数,八名员工是女性的机会取决于该数字,反之亦然,您可以从一组中的女性人数得出结论,某个员工是女性的概率是多少。
所以让我们重述这个问题。你随机挑选了 12 名员工。我告诉你“我会问你每个员工可能有或可能没有的一些属性,我希望你告诉我,具有该属性的组中的员工数量是否在 8 到 12 之间”。