机器学习是任何统计学家都熟悉的重要主题吗?机器学习似乎是统计学。为什么统计程序(本科和研究生)不需要机器学习?
统计学家学习机器学习重要吗?
机器学习是高维应用统计的专业领域。它还需要相当多的编程背景,这对于一个好的定量计划来说不是必需的,尤其是在本科阶段,但在某种程度上在研究生阶段也是如此。它仅适用于统计的预测方面,而数理统计以及推理和描述性应用统计需要注意。许多课程让学生有机会大量接触机器学习(例如 CMU),但总体而言,工业统计学家很少有机会应用这些工具,除非是某些高知名度的技术工作。
虽然我最近在就业市场上看到了许多数据科学家和机器学习职位,但我认为“统计学家”的一般职位描述不需要机器学习背景,但确实需要对基本统计、推理和沟通有无可挑剔的理解:这些确实应该是研究生统计课程的核心。机器学习和数据科学作为职称和学科也相对较新。如果在 10 年或 20 年内由于效率低下而在商业/制药/生物科学企业中大部分被放弃,那么对于那些寻求统计学家工作的人来说,将他们的问题解决策略转向机器学习,这将是一种伤害。
最后,我不觉得机器学习极大地增强了对统计的扎实理解。统计学从根本上说是一个跨学科领域,重要的是要与您所在领域的非技术专家(例如医生、首席财务官或管理人员)沟通并说服您选择您选择的方法的确切原因。机器学习是一个如此利基、高度技术化的领域,在许多应用实践中,它只承诺比标准工具和技术具有渐进式更好的性能。有监督和无监督学习中的许多方法被非专家(甚至一些训练不足的专家)视为“黑匣子”。当被要求为他们对特定学习方法的选择进行辩护时,有些解释是平淡无奇的,并且没有利用任何以应用问题为动机的情况。
好的,让我们用我们从与我们在研究生课程中密切合作的一两个人那里学到的东西蒙住眼睛来谈论统计学的大象......
统计程序需要他们认为合适的东西,也就是说,在学生在该程序上的有限时间的情况下,他们希望学生学习的最重要的东西是什么。要求一个狭窄的区域意味着与其他一些可以被认为同样重要的区域告别。有些程序需要测量理论概率,有些则不需要。有些需要外语,但大多数程序不需要。一些程序将贝叶斯范式作为唯一值得研究的东西,但大多数程序不这样做。一些程序知道对统计学家的最大需求是调查统计(至少在美国是这样),但大多数人并不知道。Biostat 项目追随金钱,教授 SAS + 易于销售给医学和制药科学的方法。
对于设计农业实验、通过电话调查收集调查数据、验证心理测量量表或在 GIS 中制作疾病发病率地图的人来说,机器学习是计算机科学的一门抽象艺术,与他们每天使用的统计数据相去甚远基础。这些人都不会从学习支持向量机或随机森林中看到任何直接的好处。
总而言之,机器学习是对其他统计领域的一个很好的补充,但我认为像多元正态分布和广义线性模型这样的主流东西需要放在首位。
机器学习是关于从数据中获取知识/学习。例如,我使用机器学习算法,可以从 DNA 微阵列数据(例如癌症或糖尿病)中选择一些可能与特定类型疾病有关的基因。然后,科学家可以使用这些基因(学习模型)在未来进行早期诊断(对未见过的样本进行分类)。
机器学习涉及很多统计数据,但机器学习的某些分支不需要统计数据(例如遗传编程)。在这些情况下,您需要统计的唯一时间是查看您使用机器学习构建的模型在统计上是否与其他模型有显着差异。
在我看来,为统计学家介绍机器学习会是有利的。这将有助于统计学家了解统计学应用的真实世界场景。但是,它不应该是强制性的。你可能会成为一名成功的统计学家,并度过你的一生,而不必接近机器学习!