可视化方差

机器算法验证 数据可视化 方差
2022-03-30 22:09:35

我在一家收集工作环境调查的公司工作。完成调查后,我们会创建报告,分发给公司的经理,以显示他们需要将精力集中在哪里等。

在这些报告中,我们将计算组的方差与参考总体的方差进行比较。我们将这个分数“标准化”在 0-100 的范围内。(代码内计算给出了从 -inf 到 +inf 的另一个比例,但为简单起见,我们说 0 是 50,并且只去掉 100 和 0 以下的所有内容。)我们最大的问题是我们的客户非常清楚实际数量。尽管我们试图告诉他们高/低数字不一定是坏的,但它只是显示了您的组方差与参考总体方差的比较情况。

我们正在考虑不再在最终用户报告中显示数字,而是采用“高”、“正常”、“低”方差的直观表示。但我想不出它有什么好的视觉表现。它需要一种中性的外观,但仍然显示一些东西......(..我知道..)

有人对如何实现这一目标有任何建议吗?

(免责声明:我不是统计学家,我是开发人员;)。我在高等教育中上过一门统计课,那是 5 年前的事了。所以我使用的术语和我的解释都可能完全没有意义。)

4个回答

如果主要关注的是“我们的客户非常清楚实际数字。即使我们试图告诉他们高/低数字不一定是坏的”,那么我认为您应该通过绘制置信区间来正式解决它们. 方差是一个糟糕的选择,因为它的单位是你所测量的任何东西的平方,而且它们要大得多,并且可能会产生很大的误导性。标准差是一种更好的方法,但这并不能回答客户的担忧,因为仅通过 SD 本身就无法判断点估计值是否真的与参考平均值不同。

基于森林图修改的某种图将是更好的候选者。它紧凑且易于与文本字段集成(您可以在其中显示摘要统计信息。)更重要的是,它可以直接回答您的客户问题。如果他们担心 3.5 比 4.6 低很多,那么在统计上告诉他们他们没有什么不同。(或者也许你的客户是对的。)

与您建议的做法有些相反(完全消除数字输出),我可能会尝试丰富图表以显示更多数据。面板直方图或小提琴图(见下文)等设备允许您显示实际数据的分布,这可能会提供一个强烈的视觉提示,即数据确实会传播,而不仅仅是一个点。

在此处输入图像描述

另外,我建议您评估您的分数分布的偏度或其他与正态分布的偏差,并查看使用一些非参数图(如箱线图)进行增强是否是个好主意。


旁注:我觉得你的修剪标准非常严格,但我不会质疑你对比例的熟悉程度。无论如何,如果使用这样的修剪方案,我觉得你也有义务报告有多少人被修剪了。这是因为你用来说服他们事情并没有那么不同的变化可能会被你定义修剪阈值的方式改变。以后发现就尴尬了。

问题可以简化为“如何根据参考分布显示一个感兴趣的值?”。前者,显示感兴趣的价值是简单的部分;图表上该点的任何戏剧性标记都可以。因此,显示参考分布的不同显示方式将很有用我们不需要知道该参考分布到底是什么来提供相关建议。

显示分布的最常用方法之一是绘制其概率密度函数累积密度函数(通常分别称为 PDF 和 CDF)。下图显示了一个正态分布的参考分布,平均值为 40,标准差为 15。感兴趣的值80叠加为一个明显的大红点。左图中的灰线显示了来自参考分布的 CDF 估计值,以及右图中的 PDF。

在此处输入图像描述

这种类型的图表也适用于定义不明确的参考分布。例如,您可以根据先前的参考值绘制 PDF(或 CDF)的平滑核密度估计值,并以相同的方式叠加当前感兴趣的值。从这些图可以估计得到高于或低于当前感兴趣值的值的概率。CDF 直接从图表中读取,PDF 必须根据感兴趣值左侧或右侧的区域进行估计。另一种选择(企鹅展示)是反映 PDF 并将其区域显示为小提琴图。这为分布尾部的区域提供了更多的视觉效果。此处,感兴趣的值用黑色水平线标记,该值上方的区域为红色。

小提琴剧情

显示分布的另一种流行替代方法是箱线图(或误差条形图)。左侧图表中的误差条覆盖了参考分布的中间 80%,右侧的箱线图绘制了灰色条内和晶须外的四分位数范围,通常被认为是对异常值的稳健估计。

在此处输入图像描述

这些可能是您注意到的令人担忧的死记硬背 - 如果在酒吧内一切都很好,如果在外面,天空正在坠落。根据参考分布的估计程度,您可以绘制超出四分位范围的字母值,或绘制连续密度条以显示参考分布。下面是一个连续渐变的示例,其中较深的灰色表示参考分布的 PDF 较高。(参见Wickham 和 Stryjewski的 40 年箱线图。)

在此处输入图像描述

正如我从他的评论中了解到的那样,克里斯蒂安想要在现有的情节中添加一个标志性的方差表示。我们还不知道是什么样的情节。对于点图,方差的惯性矩表示可能是一种解决方案。以样本的标准差作为水平半径是一个不错的选择,“低-中-高”刻度可以选择三种颜色。

在此处输入图像描述

方差的平方根与您的数据具有相同的比例。对于正态分布,这称为标准偏差。

将值标准化为标准偏差的倍数是一种常见的做法,这样+3σ被认为是一个异常高的价值,而3σ被认为异常低。

这被称为“标准化”,或z-分数。