大众披萨统计

机器算法验证 解释 描述性统计
2022-03-06 00:20:37

纽约时报网站上的一个简短条目提供了美国披萨消费的事实和数据。我对如何使用(或滥用)统计数据向普通受众提供信息有一种偶然的兴趣,并且基于所提供的统计数据出现了几个问题:

  • 如果今天有八分之一的美国人会吃披萨,这是否意味着美国人平均每 8 天会吃一次披萨?这里假设每个美国人都吃披萨,但事实并非如此。然而,这就提出了一个问题,即如何对有多少美国人吃披萨做出有效假设。
  • 据报道,儿童摄入的热量中有 25% 是披萨。我将一个孩子定义为一个 9 岁的孩子,他适度活跃,因此需要每天摄入 2000 卡路里的热量。如果我们相信谷歌的估计,一个披萨片中的卡路里数是 285,那么这是否意味着一个孩子平均每周吃 12 片披萨?(2000 * 7 * 0.25 / 285)

我怀疑我对统计数据的解释是有缺陷的;在我看来,在今天吃披萨的八分之一的美国人中,一个孩子似乎不可能成为其中的一员,同时每天吃大约 1.7 片来达到 25% 的卡路里摄入量。

2个回答

要了解这些数据的局限性,必须了解NHANES的结构。在 2007-2010 年的周期中,NHANES 包括两次 24 小时饮食召回作为访谈过程的一部分。儿童的摄入量可能由代理人/看护人共同报告。饮食回忆只是展示了美国人在典型的一天的饮食习惯,而不是一项长期的食物偏好调查。

如果今天有八分之一的美国人会吃披萨,这是否意味着美国人平均每 8 天会吃一次披萨?这里假设每个美国人都吃披萨,但事实并非如此

我不认为这个假设是必要的。如果你换上一些不易修改的东西,它很容易被驱散。例如:每 2 个美国人中就有 1 个是男性。显然我们不需要每隔一天在男性和女性之间进行变形。

然而,这就提出了一个问题,即如何对有多少美国人吃披萨做出有效假设。

我同意,正如我在上面描述的那样,NHANES 并不意味着报告偏好。充其量我们只能假设今天,我们最好的猜测是八分之一的美国人会吃披萨。

据报道,儿童摄入的热量中有 25% 是披萨。我将一个孩子定义为一个 9 岁的孩子,他适度活跃,因此需要每天摄入 2000 卡路里的热量。如果我们相信谷歌的估计,一个披萨片中的卡路里数是 285,那么这是否意味着一个孩子平均每周吃 12 片披萨?(2000 * 7 * 0.25 / 285)

我想我是否理解您的担忧,但请在此处阅读原始版本。在第 3 页,它说 25% 的能量贡献仅适用于在抽样当天吃过披萨的儿童。对于美国一般儿童人口,比萨饼的总能量贡献下降到 4%。

所以,如果一些孩子在某一天吃披萨,如果他们的每日总热量最终达到 2000 大卡,那么披萨可能会贡献大约 25% 的热量。根据您的披萨卡路里数(285 大卡/片),孩子们通常会消耗大约两片。

另请注意,我在此处引用的 2000 kcal 是观察到的总卡路里,而不是您指出的“所需卡路里”。从报告中,我不认为他们使用任何饮食指南(也就是理想的营养和能量量)作为分母。

关于您的第一个要点,请记住人们是异质的。有一小部分人经常吃披萨(比如一些大学新生),很多人偶尔吃,还有一些人从不吃披萨。值得永远记住的是,没有“普通美国人”。你所认识到的混乱是经济学家所说的生态谬误的一个例子。本质上,这是假设对一个集合(例如,所有美国人)为真的东西必须对组成部分(例如,每个美国人)是真的。

我很难想象一家报纸会如何试图简单地陈述有争议的统计数据,并在不迂腐或试图上统计课的情况下抢占这种可能的混乱。尽管我对新闻媒体很挑剔,但这确实是一项艰巨的任务,而且他们有相互竞争的需求。我想他们可以说,“因为有些人经常吃披萨,所以在典型的一天,八分之一的美国人正在吃披萨(尽管每天都有很多人是同一个人)”。

至于你的问题,我们如何才能有效地得出美国人吃披萨的比例,在没有更多信息的情况下,我们只能说比例必须在 12.5% 到 100% 的区间内。仅基于对类似现象的松散熟悉,我猜测分布遵循幂律