2016 年真的需要预测建模的变量选择吗?

机器算法验证 机器学习 造型 特征选择 模型选择 预言
2022-02-04 00:26:48

几年前在 CV 上提出了这个问题,鉴于 1)数量级更好的计算技术(例如并行计算、HPC 等)和 2)更新的技术,例如 [3],这似乎值得重新发布。

首先,一些背景。让我们假设目标不是假设检验,也不是效果估计,而是对未见测试集的预测。因此,任何可解释的好处都没有得到重视。其次,假设您不能排除任何预测因素与主题考虑的相关性,即。它们单独或与其他预测因素结合似乎都是合理的。第三,您面临着(数亿)数百万个预测变量。第四,假设您可以无限预算访问 AWS,因此计算能力不是限制因素。

变量选择的常见原因是 1) 效率;更快地拟合更小的模型并且更便宜地收集更少的预测变量,2)解释;了解“重要”变量可以深入了解底层过程 [1]。

现在众所周知,许多变量选择方法是无效的并且通常是完全危险的(例如,前向逐步回归)[2]。

其次,如果所选模型有任何好处,则根本不需要减少预测变量列表。该模型应该为您完成。一个很好的例子是套索,它为所有不相关的变量分配一个零系数。

我知道有些人提倡使用“大象”模型,即。将所有可能的预测变量都扔到合适的位置并与之一起运行 [2]。

如果目标是预测准确性,是否有任何基本理由进行变量选择?

[1] Reunanen, J. (2003)。在比较变量选择方法时过度拟合。机器学习研究杂志,3,1371-1382。

[2] Harrell, F. (2015)。回归建模策略:应用于线性模型、逻辑和序数回归以及生存分析。施普林格。

[3] Taylor, J. 和 Tibshirani, RJ (2015)。统计学习和选择性推理。美国国家科学院院刊,112(25),7629-7634。

[4] Zhou, J.、Foster, D.、Stine, R. 和 Ungar, L.(2005 年 8 月)。使用 alpha-investing 进行流式传输特征选择。在第十一届 ACM SIGKDD 数据挖掘知识发现国际会议论文集上(第 384-393 页)。ACM。

4个回答

多年来一直有传言称谷歌使用所有可用功能来构建其预测算法。然而,迄今为止,还没有出现澄清和/或质疑这一谣言的免责声明、解释或白皮书。甚至他们公布的专利也无助于理解。因此,据我所知,Google 外部没有人知道他们在做什么。

/* 2019 年 9 月更新,谷歌 Tensorflow 传道者在一次演讲中公开表示,谷歌工程师定期评估当前版本的PageRank的超过 50 亿个参数。*/

正如 OP 所指出的,预测建模中最大的问题之一是经典假设检验和仔细的模型规范与纯数据挖掘之间的混淆。受过经典训练的人对于模型设计和开发中“严格”的需求可能会变得非常教条。事实是,当面对大量的候选预测变量和多个可能的目标或因变量时,经典框架既不起作用,也不能提供有用的指导。最近的许多论文从 Chattopadhyay 和 Lipson 的精彩论文Data Smashing: Uncovering Lurking Order in Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf中描述了这一困境

关键瓶颈是当今大多数数据比较算法依赖于人类专家来指定数据的哪些“特征”与比较相关。在这里,我们提出了一种新的原则,用于估计任意数据流源之间的相似性,既不使用领域知识也不使用学习。

致去年Kleinberg 等人关于预测政策问题的 AER 论文。https://www.aeaweb.org/articles?id=10.1257/aer.p20151023这使得数据挖掘和预测成为经济政策制定中的有用工具,并引用了“因果推理不是核心甚至是必要的实例”。 "

事实上,更大的 64,000 美元问题是思维的广泛转变和对经典假设检验框架的挑战,例如,Edge.org关于“过时”科学思维的研讨会https://www.edge.org/响应/什么-科学-想法-准备好退休,以及埃里克·贝因霍克最近关于“新经济学”的文章,该文章提出了一些激进的建议,用于整合广泛不同的学科,如行为经济学、复杂性理论、预测模型发展、网络和投资组合理论作为政策实施和采用的平台https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/不用说,这些问题远远超出了单纯的经济问题,并表明我们正在经历科学范式的根本转变。转变的观点与还原论、奥卡姆剃刀(如模型构建)与伊壁鸠鲁的广义原则或多种解释之间的区别一样重要,或者多种解释粗略地指出,如果有几个发现解释了某些事情,请保留它们... https://en。 wikipedia.org/wiki/Principle_of_plenitude

当然,像 Beinhocker 这样的人完全不受实际问题的困扰,在关注这一不断发展的范式的应用统计解决方案方面。关于超高维变量选择的基本问题,OP 对于模型构建的可行方法相对不具体,这些方法可能利用例如 Lasso、LAR、逐步算法或使用所有可用信息的“大象模型”。现实情况是,即使使用 AWS 或超级计算机,您也无法同时使用所有可用信息 - 根本没有足够的 RAM 来加载它们。这意味着什么?已经提出了解决方法,例如,NSF在复杂或海量数据集中的发现:常见统计主题用于海量数据挖掘的“分而治之”算法,例如,Wang 等人的论文A Survey of Statistical Methods and Computing for Big Data http://arxiv.org/pdf/1502.07989.pdf以及 Leskovec 等人的书海量数据集挖掘 http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

现在有数百甚至数千篇论文处理这些挑战的各个方面,都提出了与“分而治之”算法大不相同的分析引擎作为其核心;无监督的“深度学习”模型;随机矩阵理论应用于海量协方差构造;贝叶斯张量模型到经典的监督逻辑回归等。大约十五年前,辩论主要集中在关于分层贝叶斯解决方案与频率论有限混合模型的相对优点的问题上。在一篇解决这些问题的论文中,Ainslie 等人。http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf得出的结论是,在实践中,不同的理论方法产生了大致相同的结果,除了涉及稀疏和/或高维数据的问题,其中 HB 模型具有优势。今天,随着 D&C 变通方法的出现,HB 模型在历史上可能享有的任何套利都被淘汰了。

这些 D&C 变通方法的基本逻辑大体上是 Breiman 著名的随机森林技术的扩展,该技术依赖于观察和特征的自举重采样。Breiman 在 90 年代后期在单个 CPU 上完成了他的工作,当时海量数据意味着几十个演出和几千个功能。在当今的大规模并行、多核平台上,可以运行算法分析包含数千万特征的 TB 数据,在几个小时内构建数百万个“RF”迷你模型。

所有这些都产生了许多重要的问题。由于这些变通方法的近似性质,人们担心精度会下降。Chen 和 Xie 在他们的论文A Split-and-Conquer Approach for Analysis of Extraordinally Large Data http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf中解决了这个问题,他们在其中得出结论近似值与“完整信息”模型没有什么区别。

第二个问题,据我所知,文献没有充分解决这个问题,与解决方法后潜在的数百万个预测迷你模型的结果(即“参数”)有关已经被卷起和总结。换句话说,如何执行简单的事情,比如用这些结果“评分”新数据?是要保存和存储迷你模型系数还是简单地对新数据重新运行 d&c 算法?

在他的书中,数字统治你的世界,Kaiser Fung 描述了 Netflix 面临的两难境地,当他们的比赛获胜者移交的只有 104 个模型的集合时。确实,与所有其他竞争对手相比,获胜者将 MSE 最小化,但这仅转化为他们的电影推荐系统使用的 5 点李克特类型评分量表的准确性提高了小数点后几位。此外,这组模型所需的 IT 维护成本远远高于从模型准确性“改进”中看到的任何节省。

然后是整个问题,即是否可以使用如此数量的信息进行“优化”。例如,物理学家和金融工程师 Emmanuel Derman 在他的《我的量化人生》一书中指出,优化是一个不可持续的神话,至少在金融工程中是这样。

最后,关于具有大量特征的相对特征重要性的重要问题尚未得到解决。

关于变量选择的必要性和当前伊壁鸠鲁式变通方法带来的新挑战,没有简单的答案有待解决。底线是我们现在都是数据科学家。

**** 编辑 *** 参考文献

  1. Chattopadhyay I, Lipson H. 2014 数据粉碎:揭示数据中潜伏的秩序。JR SOC。接口11:20140826。http: //dx.doi.org/10.1098/rsif.2014.0826

  2. Kleinberg、Jon、Jens Ludwig、Sendhil Mullainathan 和 Ziad Obermeyer。2015.“预测政策问题”。美国经济评论,105(5):491-95。DOI: 10.1257/aer.p20151023

  3. Edge.org,2014 年年度问题:哪些科学理念已准备好退休? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement

  4. Eric Beinhocker,经济学的深刻变化如何使左右辩论变得无关紧要,2016 年,Evonomics.org。 https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. 伊壁鸠鲁的多重解释原则:保持所有模型。维基百科 https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/

  6. NSF,复杂或海量数据集中的发现:常见统计主题,由美国国家科学基金会资助的研讨会,2007 年 10 月 16-17 日 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf

  7. 大数据的统计方法和计算,Chun Wang、Ming-Hui Chen、Elizabeth Schifano、Jing Wu 和 Jun Yan 的工作论文,2015 年 10 月 29 日 http://arxiv.org/pdf/1502.07989.pdf

  8. Jure Leskovec、Anand Rajaraman、Jeffrey David Ullman,《海量数据集挖掘》,剑桥大学出版社;第 2 版(2014 年 12 月 29 日) ISBN:978-1107077232

  9. 大样本协方差矩阵和高维数据分析(统计和概率数学剑桥丛书),姚建峰、郑树荣、白志东,剑桥大学出版社;1 版(2015 年 3 月 30 日) ISBN:978-1107065178

  10. RICK L. ANDREWS、ANDREW AINSLIE 和 IMRAN S. CURRIM,Logit 选择模型与异质性离散与连续表示的实证比较,营销研究杂志,479 卷。三十九(2002 年 11 月),479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf

  11. A Split-and-Conquer Approach for Analysis of Extraly Large Data,Xueying Chen 和 Minge Xie,DIMACS 技术报告 2012-01,2012 年 1 月 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf

  12. Kaiser Fung,数字统治你的世界:概率和统计对你所做的一切的隐藏影响,麦格劳-希尔教育;1 版(2010 年 2 月 15 日) ISBN:978-0071626538

  13. Emmanuel Derman,我作为 Quant 的生活:对物理和金融的思考,Wiley;1 版(2016 年 1 月 11 日) ISBN:978-0470192733

* 2017 年 11 月更新 *

Nathan Kutz 于 2013 年出版的著作《数据驱动建模和科学计算:复杂系统和大数据的方法》是对变量选择以及降维方法和工具的数学和 PDE 为重点的探索。可以在 2017 年 6 月的 Youtube 视频Data Driven Discovery of Dynamical Systems and PDE中找到对他的思想的 1 小时精彩介绍。在其中,他提到了该领域的最新发展。 https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop

在预测方面,您可能需要考虑模型学习重要特征的速度的问题。即使考虑到 OLS,如果有足够的数据,这也会为您提供模型选择之类的东西。但我们知道它不能足够快地收敛到这个解决方案 - 所以我们寻找更好的东西。

大多数方法都对将要遇到的贝塔/系数类型做出假设(如贝叶斯模型中的先验分布)。当这些假设成立时,它们的效果最好。例如,岭/套索回归假设大多数贝塔在同一尺度上,大多数接近于零。它们不适用于“大海捞针”回归,其中大多数贝塔为零,而有些贝塔非常大(即比例非常不同)。特征选择在这里可能会更好 - 套索可能会卡在缩小噪声和保持信号不变之间。特征选择更加变化无常——效果要么是“信号”,要么是“噪声”。

在决定方面 - 您需要了解您拥有什么样的预测变量。你有几个真正好的吗?还是所有变量都很弱?这将推动您将拥有的测试版的配置文件。以及您使用哪种惩罚/选择方法(课程用马等等)。

特征选择也不错,但由于计算限制,一些较旧的近似不再好(逐步,向前)。使用特征选择的模型平均(所有 1 个 var 模型、2 个 var 模型等按其性能加权)将在预测方面做得很好。但是这些本质上是通过赋予排除该变量的模型的权重来惩罚贝塔——只是不是直接地——而不是以凸优化问题的方式。

我给你行业的视角。

行业不喜欢在传感器和监控系统上花钱,他们不知道会从中受益多少。

例如,我不想命名,所以想象一个有 10 个传感器的组件每分钟收集数据。资产所有者转向我,问我你能用 10 个传感器的这些数据预测我的组件的行为吗?然后他们进行成本效益分析。

然后,他们有 20 个传感器的相同组件,他们再次问我,你能用 20 个传感器的这些数据预测我的组件的行为吗?他们执行另一项成本效益分析。

在每种情况下,他们都会将收益与传感器安装带来的投资成本进行比较。(这不仅仅是在一个组件上添加一个 10 美元的传感器。很多因素都在起作用)。这是变量选择分析可能有用的地方。

作为学习纯预测模型的算法的一部分,从性能的角度来看,变量选择不一定是坏事,也不是自动危险的。但是,有一些问题需要注意。

为了使问题更具体一点,让我们考虑线性回归问题

E(YiXi)=XiTβ
为了i=1,,N, 和Xiβ存在p变量和参数的维向量,分别。目标是找到函数的良好近似值
xE(YX=x)=XTβ,
这是预测Y给定X=x. 这可以通过估计来实现β使用变量选择和最小化损失函数的组合,有或没有惩罚。也可以使用模型平均或贝叶斯方法,但让我们关注单一模型预测。

像前向和后向变量选择这样的逐步选择算法可以看作是解决最佳子集选择问题的近似尝试,该问题在计算上是困难的(如此困难以至于计算能力的提高无关紧要)。兴趣在于为每个人寻找k=1,,min(N,p)个变量的最佳(或至少是一个好的)模型。随后,我们可以优化kk

这种变量选择过程的危险在于,许多标准分布结果在变量选择的条件下是无效的。这适用于标准测试和置信区间,并且是 Harrell [2] 警告的问题之一。Breiman 还警告了基于例如 MallowsThe Little Bootstrap中的 C_p 的模型选择......。Mallows 的或 AIC考虑模型选择,它们会给出过于乐观的预测错误。CpCp

然而,交叉验证可用于估计预测误差和选择,并且变量选择可以在偏差和方差之间取得良好的平衡。如果有一些大坐标而其余的坐标接近于零,正如@probabilityislogic 所提到的。kβ

岭回归和 lasso 等收缩方法可以在偏差和方差之间实现良好的折衷,而无需明确的变量选择。但是,正如 OP 所提到的,套索会进行隐式变量选择。这不是真正的模型,而是拟合模型的方法进行变量选择。从这个角度来看,变量选择(隐式或显式)只是将模型拟合到数据的方法的一部分,它应该被视为如此。

计算 lasso 估计器的算法可以从变量选择(或筛选)中受益。Statistical Learning with Sparsity: The Lasso and Generalizations中,第 5.10 节,它描述了在 中实现的筛选是如何glmnet有用的。它可以大大加快套索估计器的计算速度。

一个个人经验来自一个示例,其中变量选择使得使用所选变量拟合更复杂的模型(广义加性模型)成为可能。交叉验证结果表明,该模型优于许多替代方案尽管不优于随机森林。如果gamsel已经存在它将广义加法模型与变量选择相结合我可能也会考虑尝试一下。

编辑:因为我写了这个答案,所以有一篇关于我想到的特定应用程序的论文。可以使用用于重现论文中结果的 R 代码。

总而言之,我会说变量选择(以一种或另一种形式)作为一种控制偏差-方差权衡的方法即使是为了纯粹的预测目的。如果不是因为其他原因,那么至少是因为更复杂的模型可能无法处理大量现成的变量。然而,随着时间的推移,我们自然会看到像 gamsel 这样将变量选择集成到估计方法中的发展。

当然,将变量选择视为估计方法的一部分始终是必不可少的。危险在于相信变量选择就像一个预言机并识别出正确的变量集。如果我们相信这一点并像没有根据数据选择变量一样继续进行,那么我们就有犯错的风险。