为什么看起来很难找出数据科学领域的人们如何创造可衡量的价值?我在互联网上找到的都是流行语,比如数据清理、可视化和关于数据的写作。这相当于将园艺师描述为修剪树木和草地,或者说投资银行家传播并购。那是不够的。让我打出一个不充分的答案:
数据科学家使用 SQL 等数据库查询语言以及 R 等统计编程语言来设计数据实验并将此类实验结论可视化给决策者,以期做出更好的决策,从而为公司/事业创造价值。
这怎么不够?那么,我们怎么知道数据科学家的建议实际上创造了价值?如果我们无法衡量我们分析的价值,那么我们如何确定数百小时的学习/工作是否有意义?极端例子:
George 是为 X 公司工作的数据科学家。经过数百小时的数据清理/实验后,他得出结论,决策 A 将使 X 公司受益。乔治说服产品经理应用决策 A,最终将 X 公司的收入增加 0.01 美元
我们怎么知道几年的工作可能根本不算什么? 让我给你一个令人沮丧和真实/合理的例子:
乔治没有成为一名数据科学家,而是成为一名投资组合经理,为客户管理投资组合。经过 20 年的管理,乔治的业绩记录为每年 -1%,而标准普尔 500 指数的回报率为 8%。
在上面的例子中,乔治是一个没用的人,已经失去了对人的价值。数据科学家如何知道他们没有破坏价值,如果我们无法弄清楚,避免价值破坏并为公司创造最大价值的步骤是什么?