为什么母语使用者的比例呈反正弦分布?

机器算法验证 可能性 分布 贝塔分布
2022-03-30 18:42:09

亿人在印度使用的语言的分布情况。印度有多种活跃语言,分为种广泛的语言。其中大约有种主要语言,每种语言的使用者超过 100 万。全国划分为个州,州划分为区,区划分为个街道。一些街道只有一个社区,只有一种,而最多样化的街道有多达种语言。1.41600122303564059231105

对于在街道使用的每种语言,用该语言的母语在该街道的人数除以该街道的总人口,得到该语言的母语在该街道的比例。当我们对所有分区和语言组合执行此操作时,我们得到了数据点。这些比例分布的直方图如下所示,类似于反正弦分布105961

在此处输入图像描述

即使我们绘制较大的州而不是整个国家,也会出现相同的形状。同样,即使我们在区域级别进行绘图,也会出现相同的反正弦形状。

问题 1:为什么我们的分布大致类似于反正弦分布。请注意,我并不是说它在理论上一定是一个完美的反正弦值,而是在工程应用意义上,它足以假设最近的匹配分布以完成工作。我知道随机布朗运动会导致反正弦分布,但我不确定这是否是根本原因。

问题 2:解释这一观察结果的最佳方式是什么?例如,这种形状是否表明少数主要/主要语言最终会蚕食众多次要语言?

2个回答

问题 2:解释这一观察结果的最佳方式是什么?例如,这种形状是否表明少数主要/主要语言最终会蚕食众多次要语言?

有多少个分区?看起来在大多数地区(大约 2 或 3000 人?)一种语言占主导地位,80% 或更多的人以这种语言为母语(高支配地位似乎比几乎没有支配地位更有可能)

结果,一个地区的其他语言只剩下 20%,这就形成了这个镜像一种语言要么被许多人(得分 >80%)说,要么(因此)在另一边只有少数人(得分 <20%)说。

(可能会有一些说双语的人,但我认为在大多数情况下,在一个分区中,母语人士的比例应该达到或多或少 100%。)


简而言之:

您在 50% 左右的中间看不到很多语言,因为一个地区通常存在一种主导语言,这会导致高端的颠簸(代表以主流语言为母语的百分比),但也会导致低端的颠簸end(代表以非主要语言为母语的人的百分比)。


向该图表添加信息的一个好方法是制作一个堆叠图表,您可以在其中细分条形图,并为第一多语言、第二多语言和其他语言赋予不同的颜色。通过这种方式,您可以看到镜像是如何从右侧的主要(最常用的)语言创建的。剩下的在左边。


问题 1:为什么我们的分布大致类似于反正弦分布。请注意,我并不是说它在理论上一定是一个完美的反正弦值,而是在工程应用意义上,它足以假设最近的匹配分布以完成工作。我知道随机布朗运动会导致反正弦分布,但我不确定这是否是根本原因。

我不相信它像一维布朗运动那么简单。但也许制作一些地图并了解语言的分布情况可能会很有见地。

我想象的是,曲线的大部分由市长语言主导,这些语言集中在他们是第一语言的地区:

来自https://commons.m.wikimedia.org/wiki/File:Language_region_maps_of_India.svg#mw-jump-to-license 第一口语

最重要的是,您可以想象这些语言在边界处的一些混合,这会导致分布偏离完美的 0/100% 分割。

您可能会将这种传播视为某种布朗运动过程(但可能带有一些吸引力)。并且语言远离其起源的可能性降低了,这样你就会得到一些可能与反正弦分布类似的分布,但它可能会更复杂,也许你可以更普遍地将它建模(近似)为 beta分布,但可能是更复杂的东西的混合物,恰好看起来像反正弦。

反正弦函数描述了一个已知分布:β 分布 虽然随机游走会给出一个很好的机械解释,但概率论中可能有一个答案:B(α=1/2,β=1/2)

  • 对于任何地区,计算出的比例是一个介于之间的数字- 可以将其视为该地区的人们会说其官方母语的概率,01
  • 当查看整个地区集时,这个数字可以被认为是一个随机变量,因此它可以很好地被伯努利试验分布的共轭描述,即贝塔分布,
  • 这个分布有两个参数αβ

然而,我们需要了解为什么我们应该得到 ... 仍然是一半的答案:半满半空 :-)α=1/2β=1/2