随着围绕数据科学、机器学习的所有喧嚣以及周围所有的成功故事,数据科学家及其预测模型的期望既有合理的,也有夸大的期望。
我对执业统计学家、机器学习专家和数据科学家的问题是——您如何管理公司业务人员的期望,特别是在模型的预测准确性方面?简单来说,如果你最好的模型只能达到 90% 的准确率,而高层管理人员期望的准确率不低于 99%,你如何处理这种情况?
随着围绕数据科学、机器学习的所有喧嚣以及周围所有的成功故事,数据科学家及其预测模型的期望既有合理的,也有夸大的期望。
我对执业统计学家、机器学习专家和数据科学家的问题是——您如何管理公司业务人员的期望,特别是在模型的预测准确性方面?简单来说,如果你最好的模型只能达到 90% 的准确率,而高层管理人员期望的准确率不低于 99%,你如何处理这种情况?
理性的商务人士不为准确性付费,他们为任何一方付费
因此,任何开展的项目都必须用反映这一点的术语来表述。第一步始终是了解您正在处理的两个流程中的哪一个,并且您应该清楚地了解如何实现这一目标,同时请记住,随着您的进步,您如何做的细节可能会改变。
如果您可以提高流程的准确性,您可能会为公司赚钱,而业务人员会为您的进步投资。商务人士坚持 99% 准确率而拒绝 90% 的唯一合理理由是,他们是否已经有一种比 90% 更好的方法。如果是这样的话,他们的立场当然是有道理的。
以业务人员理解的方式理解和展示您正在从事的项目的业务案例是任何工程师成熟过程的一部分。它根本不是数据科学独有的,尽管数据科学有一些独特的方面(比如成熟度较低,但偶然发现意外发现的可能性更高——至少在今天的环境中是这样。
可以在此处找到与数据科学相近的相关流程,该流程明确了此步骤:https ://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining
但大多数企业架构框架同样适用。
聚集有竞争力的同行。尝试确定最先进的技术,看看你的模型与它相比如何。它还很大程度上取决于您的团队在这方面工作了多长时间。科学驱动的模型不是静态创建的,它们是动态发展的,因为优秀的科学家总是会设法找到改进它的方法。
高层管理人员应该知道数据科学家探索新方法,有时/经常不知道它们的质量。他们应该知道机器学习技术不会立即产生完美的模型。如果他们这样做了,无论如何都不会具有挑战性。
数据科学家应该通过他如何证明和讨论他的结果以及他如何计划未来来进行评估。管理人员处理他们的期望的一种方法是不要有不切实际的高期望。
尽管如此,如果在上下文领域中期望得到合理的结果,请考虑以下问题:
我喜欢这个问题,因为它涉及每个组织中存在的政治。在我看来,在很大程度上,对模型绩效的期望是组织文化和组织“技术素养”程度的函数。明确我的意思的一种方法是考虑四大“数据科学”实体——谷歌、FB、亚马逊和雅虎——与四大代理控股实体——WPP、Omnicon、Interbrand 和 Publicis 之间的差异。谷歌等在技术上非常精通。另一方面,众所周知,这些机构倾向于技术恐惧症。这有什么证据?首先,技术素养团队由工程师、计算机科学家、极客和具有强大技术背景的人创立或运营。谁经营技术文盲公司?凭借软沟通和人际交往能力而声名鹊起的营销人员。不仅如此,我曾在纽约市的一些此类商店工作过,我可以证明这些组织系统地惩罚和/或推出了不“适合”文化的高技术素养类型。接下来,考虑他们的总(股票)市值,技术知识群体加起来约为 8000 亿美元,而技术文盲群体则达到 800 亿美元。具有技术素养的实体的市值是其他实体的 10 倍。这是市场预期的明确表述,对于文盲来说并不高。那么,通过外推,你对挑战像这样的笨蛋的“预测准确性”期望有什么样的希望呢?在纽约市的一些商店工作过,我可以证明这些组织系统地惩罚和/或推出不“适合”文化的高技术素养类型。接下来,考虑他们的总(股票)市值,技术知识群体加起来约为 8000 亿美元,而技术文盲群体则达到 800 亿美元。具有技术素养的实体的市值是其他实体的 10 倍。这是市场预期的明确表述,对于文盲来说并不高。那么,通过外推,你对挑战像这样的笨蛋的“预测准确性”期望有什么样的希望呢?在纽约市的一些商店工作过,我可以证明这些组织系统地惩罚和/或推出不“适合”文化的高技术素养类型。接下来,考虑他们的总(股票)市值,技术知识群体加起来约为 8000 亿美元,而技术文盲群体则达到 800 亿美元。具有技术素养的实体的市值是其他实体的 10 倍。这是市场预期的明确表述,对于文盲来说并不高。那么,通过外推,你对挑战像这样的笨蛋的“预测准确性”期望有什么样的希望呢?考虑到他们的总(股票)市值,技术知识群体加起来约为 8000 亿美元,而技术文盲群体则达到 800 亿美元。具有技术素养的实体的市值是其他实体的 10 倍。这是市场预期的明确表述,对于文盲来说并不高。那么,通过外推,你对挑战像这样的笨蛋的“预测准确性”期望有什么样的希望呢?考虑到他们的总(股票)市值,技术知识群体加起来约为 8000 亿美元,而技术文盲群体则达到 800 亿美元。具有技术素养的实体的市值是其他实体的 10 倍。这是市场预期的明确表述,对于文盲来说并不高。那么,通过外推,你对挑战像这样的笨蛋的“预测准确性”期望有什么样的希望呢?
所以,考虑到文化的突破以及你跌倒的地方,你应该或多或少有现实的期望。当然,不同的“技术文盲”实体会有知道自己在做什么的经理,但在大多数情况下,这些实体被技术技能最低公分母的白痴所支配,即充其量是技术的人半文盲(和危险),或者更常见的是,完全数不清但不知道。举个例子,我为一个希望从高管层中清除“相关性”之类的词的人工作。这是一个极端的例子:毕竟每个秘书都知道什么是“相关性”。
这就提出了一个问题,当他们问一个非常愚蠢的问题时,人们如何处理那些令人发狂的天真和数不清的问题,比如“你为什么没有得到 99% 的预测准确度?” 一个很好的回答是回答这样的问题,“你为什么会假设这样一个不切实际的高 PA 甚至是可能的?” 另一个可能是,“因为如果我真的得到了 99% 的 PA,我会认为我做错了什么。” 这很可能是真的,即使有 90% 的 PA。
还有一个更根本的问题是坚持将 PA 作为模型价值的唯一标准。已故的 Leo Breiman 在 PA 是其中之一的统计和预测建模社区留下了许多足迹。他对 PA 的主要关注是解决 90 年代关于运行单个 CART 树固有的不稳定性和错误的许多批评。他的解决方案是将“随机森林”作为一种近似的临时方法,通过消除树结构来最大限度地提高准确性并减少不稳定性。他将约 1,000 个迭代 RF“迷你模型”的较低 MSE 与单个逻辑回归模型的误差进行了基准测试。唯一的问题是,他从不费心提及苹果与橘子的对比:
2008 年 Netflix 奖为任何能够改进其推荐系统的 MSE 的统计学家或团队提供了可观的金钱奖励。当时,Netflix 每年在这个系统上花费 1.5 亿美元,确信在客户忠诚度和购买电影方面的成本超过了收回成本,否则这些电影将永远不会被选中。最终的获胜者使用了 107 种不同模型的复杂集合。
然而,正如 Netflix 所了解的那样,真正的问题是,从满载成本的角度来看,与当前模型相比,错误的实际改进仅是 5 分评级减少了 0.005%。更不用说 IT 时间成本、繁重的工作和 107 款获奖模型的维护成本,远远抵消了减少错误带来的任何收益。鉴于此,Netflix 最终放弃了对 MSE 的追求,也不再颁发 Netflix Prizes
这就是重点:最大限度地减少预测错误很容易被玩弄或被黑客攻击,并且很容易出现分析师欺诈(即,找到一种解决方案来赞美分析师的建模技能,对他潜在的年终奖金产生积极影响)。此外,它是在经济和商业真空中设定的完全统计解决方案和目标。该指标很少或根本不考虑辅助性、附带成本——从头到尾评估的非常真实的运营后果,这应该是任何满负荷、基于权衡的决策过程的一个组成部分。
这已成为组织中存在的问题之一,并且非常非常难以改变。换句话说,我完全意识到我正在向风车倾斜,因为这种关于使用 PA 的警告的咆哮。