机器算法验证 - 了解统计控制图 - 吾爱随笔录

了解统计控制图

机器算法验证控制图

2022-03-18 23:37:53

这些天来，控制图在我的公司风靡一时。我们的“数据分析师”（故意引用）对他们生成的几乎所有图表都设置了控制限制。前几天，我们正在查看去年我们的支持呼叫中心的一些呼叫图表。我们在折线图上绘制了每周呼叫次数的测量值。最近，准备这些图表的分析人员已经开始在图表上画出表示“控制限”的线条。

我的问题是他们如何计算这些控制限制应该在哪里。当我问他们如何确定这里的限制时，我得到的答案是：

首先，我们找到图中点看起来有些稳定（意味着方差小）的部分，然后计算这些点的平均值。然后我们计算这些点的标准误差，并从我们计算的平均值中得出 +/- 3 个标准误差的控制限。

以这种方式计算平均值是否正确？似乎我们应该使用所有点来计算平均值，而不是丢弃任何“看起来”变化太大的东西。

对这样的测量设置控制限制是否有意义（进入呼叫中心的呼叫数量）？只要测量值在控制范围内，我们就认为这周是正常的。如果一周通话量的测量值超出这些控制范围，则认为其意义重大，需要进一步分析。对我来说，这一切似乎有些人为。

2个回答

控制图的目的是尽快确定可修复的问题何时出现。为了使其正常工作，它不能将随机或不可控的变化识别为“失控”。

所描述的程序的问题是多方面的。他们包括

图表的“稳定”部分并不典型。根据定义，它的可变性比平时要小。通过低估受控情况的可变性，将导致图表错误地将许多变化识别为失控。
使用标准错误完全是错误的。标准误差估计平均每周呼叫率的抽样变异性，而不是呼叫率本身的变异性。
将限制设置为标准差可能有效，也可能无效。它基于适用于非序列相关的正态分布数据的经验法则。通话费率不会呈正态分布，除非它们相当大（大约每周 100+）。它们可能是或可能不是序列相关的。 $\pm 3$
该过程假定基础过程具有随时间不变的速率。但是你不是在制作小部件；你正在响应一个市场——希望——是（a）规模增加但（b）随着时间的推移降低呼叫率。预计会有时间趋势。任何趋势迟早都会导致数据看起来始终失控。
人们倾向于经历与季节、校历、假期等相对应的年度活动周期。这些周期就像趋势一样，会导致可预测（但毫无意义）的失控事件。

模拟数据集说明了这些原则和问题。

控制图

模拟过程创建了一系列可控的真实数据：相对于可预测的基本模式，它不包括可以分配原因的失控偏移。该图是模拟的典型结果。

这些数据来自泊松分布，这是一个合理的呼叫率模型。他们从每周 100 个基线开始，每年以每周 13 个线性上升趋势。叠加在这一趋势之上的是一个正弦年度周期，其幅度为每周 8 次调用（由虚线灰色曲线跟踪）。我相信这是一个温和的趋势和相对较小的季节性。

红点（大约第 12 至 37 周）被确定为在这两年图表的前 1.5 年中遇到的最低标准偏差的 26 周期间。细红线和蓝线设置在标准误差。（显然它们是无用的。）粗粗的金色和绿色线条设置在平均值周围的 $\pm 3$ $\pm 3$

（通常不会及时向后投影控制线，但我在此处这样做是为了视觉参考。追溯应用控制通常没有意义：它们旨在识别未来的变化。）

请注意长期趋势和季节性变化如何使系统在第 40-65 周（年度最高值）和第 85 周之后（年度最高值加上一年的累积趋势）之间进入明显的失控状态。任何试图将其用作控制图的人大部分时间都会错误地寻找不存在的原因。在实践中，这个系统会被所有人讨厌并很快被忽略。（我见过公司的每一扇办公室门和所有走廊的墙壁上都贴满了没有人费心阅读的控制图，因为他们都知道得更清楚。）

正确的做法是从提出基本问题开始，例如您如何衡量质量？你能对它产生什么影响？尽管您尽了最大的努力，但这些措施可能会如何波动？极端波动会告诉你什么（它们的可控原因是什么）？然后，您需要对过去的数据进行统计分析。他们的分布是什么？它们在时间上相关吗？有趋势吗？季节性成分？过去可能表明情况失控的旅行的证据？

完成所有这些之后，就有可能创建一个有效的控制图（或其他统计监控）系统。文献量很大，所以如果这家公司认真考虑使用定量方法来提高质量，那么有足够的信息来说明如何做到这一点。但是忽略这些统计原则（无论是由于缺乏时间还是缺乏知识）实际上肯定会导致努力失败。

控制图的一般思想是区分常见原因变异和特殊原因变异。这个想法是该过程相当稳定并从给定分布生成数据（尽管泊松对于调用次数比正常情况更有意义）。控制图的一大优点是它们限制了对自然变化的过度反应，同时仍然允许发现过程何时发生变化。

选择一组观测值，因为它们的变化很小，几乎可以保证限制太窄，因此会增加对正常变化的不适当反应。使用所有数据更有意义，使用 Poisson C 图表可能比 x 条形图更好。但是，呼叫中心似乎也会因假期或季节（取决于所支持的内容）而出现差异，因此这里的基本假设甚至可能不合适。

听起来他们在做某事是因为他们可以，而不是因为它回答了一个有意义的问题。

其它你可能感兴趣的问题

上一篇如何测试在使用 R 遗漏数据的训练样本上开发的逻辑回归模型？下一篇如何计算R中计数数据的置信区间？