我是数据科学和统计的新手,所以这似乎是一个初学者问题。
我正在研究一个数据集,我每天都有用户的 Twitter 关注者获得。我想测量他在一段时间内的平均增长,我通过找到增长的平均值来做到这一点。但是有人建议我为此使用中位数。
谁能解释一下,在哪个用例中我们应该使用均值以及何时使用中位数?
我是数据科学和统计的新手,所以这似乎是一个初学者问题。
我正在研究一个数据集,我每天都有用户的 Twitter 关注者获得。我想测量他在一段时间内的平均增长,我通过找到增长的平均值来做到这一点。但是有人建议我为此使用中位数。
谁能解释一下,在哪个用例中我们应该使用均值以及何时使用中位数?
这取决于您要回答的问题。您正在查看时间序列的变化率,听起来您正试图展示它如何随时间变化。平均值为读者提供了一个直观的见解:他们可以轻松估计任何日期的关注者数量自开始以来的天数乘以平均变化率。
这个单一指标的缺点是它没有说明像这样的系列中非常常见的东西:变化率不随时间固定。让读者了解变化率是否静态的一个合理指标是给他们中位数。如果他们知道该系列的最小值(在您的情况下可能为零)、当前值、平均值和中位数,那么在许多情况下,他们可以“感觉”到增长有多接近线性。
Anscombe 的四重奏中有一个很好的警示故事——四个完全不同的时间序列,它们都共享几个重要的统计指标。基本上它总是回到你试图回答的问题。您是否正在尝试寻找可能很快就会变得突出的用户?逐年稳定积累粉丝的用户?一击奇迹?僵尸网络?
正如您可能已经猜到的那样,这意味着不可能普遍称均值或中位数比另一个“更好”。
算术平均值表示为
其中每个 代表一个独特的观察。算术平均值测量给定一组数字的平均值。
与此相反,中位数是直接位于数据集中间的值。当您处理大范围或存在会扭曲均值的异常值(与其他值相比非常高或非常低的数字)时,中位数特别有用。
例如,工资通常使用中位数来讨论。这是由于大多数人与少数有钱的人之间的巨大差距(少数有很多钱的人是异常值)。因此,在这种情况下,查看 50% 百分位数的个体将给出比平均值更具代表性的值。
或者,通常使用平均值(平均值)来描述成绩,因为大多数学生应该接近平均水平,很少有人会远远低于或高于平均水平。
简而言之,如果您的数据被噪音破坏或说错误的推特关注者数量(如您的情况),则将均值作为指标可能是有害的,因为模型将表现不佳。在这种情况下,如果取值的中位数,它将处理数据中的异常值。希望能帮助到你
通常中位数对极值比均值更稳健。尝试将其视为最小化任务。中值对应于绝对损失,而均值对应于平方损失。