我创建了一个网页,其中包含汤普森路透社的实时奥运奖牌结果和中央情报局的全球人口统计数据。
结果对我来说很有趣——匈牙利在金牌数上领先于世界其他地区两位数。此外,美国和中国几乎在每个类别中都接近底部。
我的问题是——我是否以公平的方式呈现数据?我只是选择了最大的人口,然后基于此为每个国家/地区创建了一个因素。 相对奖牌数列基于该因素。
我可以添加哪些列?我还可以添加哪些其他因素来呈现最公平的观点?绝对的观点很简单——路透社就是这样做的。如何营造公平的视野?
我创建了一个网页,其中包含汤普森路透社的实时奥运奖牌结果和中央情报局的全球人口统计数据。
结果对我来说很有趣——匈牙利在金牌数上领先于世界其他地区两位数。此外,美国和中国几乎在每个类别中都接近底部。
我的问题是——我是否以公平的方式呈现数据?我只是选择了最大的人口,然后基于此为每个国家/地区创建了一个因素。 相对奖牌数列基于该因素。
我可以添加哪些列?我还可以添加哪些其他因素来呈现最公平的观点?绝对的观点很简单——路透社就是这样做的。如何营造公平的视野?
您正在尝试估算任何个人赢得奖牌的机会,因为我们知道我们拥有的“数据”只是国家/地区的数字。这是一个很好的问题,一个更接近奥林匹克精神的公平解决方案。
基本上,这是一个统计问题,通过您的方法可以很好地近似为奖牌(每种颜色)相对于人口的平均数量(频率)。但是这种方法的可靠性如何?这与从不同投掷次数估计二项式投掷的可靠性问题非常接近,该问题具有例如基于不同反馈数比较亚马逊经销商质量的应用程序(请参阅此详尽解释)。
在这种特殊情况下,人口数量总是足以使 beta 分布与正态分布近似——因此当然可以比较每个国家/地区的每个估计值的显着性。