统计中的“大问题”是什么?

机器算法验证 历史
2022-02-04 23:20:34

数学有其著名的千年问题(历史上还有希尔伯特的 23),这些问题有助于塑造该领域的方向。

不过,我几乎不知道黎曼假设和 P 与 NP 的统计数据会是什么。

那么,统计学中最重要的开放性问题是什么?

编辑补充: 作为我正在寻找的答案的一般精神(如果不是很具体)的一个例子,我在“21世纪的数学挑战”会议上发现了大卫多诺霍的“希尔伯特23”启发的演讲:高维数据分析:维度的诅咒和祝福

因此,一个潜在的答案可以谈论大数据及其重要性、高维数据带来的统计挑战类型以及需要开发的方法或需要回答的问题以帮助解决问题。

4个回答

一个问题应该涉及统计方法的关键问题,或者,因为统计完全是关于应用的,它应该关注统计如何用于对社会重要的问题。

这一特征表明,在考虑重大问题时应包括以下内容:

  • 如何最好地进行药物试验目前,经典假设检验需要许多正式的研究阶段。在后期(确认)阶段,经济和伦理问题显得尤为突出。我们能做得更好吗?例如,我们是否必须将成百上千的病人放入对照组并让他们留在那里直到研究结束,或者我们能否找到更好的方法来确定真正有效的治疗方法并将其提供给试验成员(以及其他人)更快?

  • 应对科学发表偏见负面结果的发布要少得多,因为它们只是没有达到神奇的 p 值。所有科学分支都需要找到更好的方法来揭示具有科学重要性的,而不仅仅是具有统计意义的结果。(多重比较问题和处理高维数据是这个问题的子类别。)

  • 探索统计方法的局限性及其与机器学习和机器认知的接口计算技术的必然进步将使真正的人工智能在我们的有生之年变得可用。我们将如何对人工大脑进行编程?统计思维和统计学习在创造这些进步方面可能发挥什么作用?统计学家如何帮助思考人工认知、人工学习、探索其局限性并取得进步?

  • 开发更好的方法来分析地理空间数据通常声称大多数或绝大多数数据库都包含位置引用。很快,许多人和设备将通过 GPS 和手机技术实时定位。分析和利用空间数据的统计方法实际上还处于起步阶段(并且似乎降级为非统计学家通常使用的 GIS 和空间软件)。

Michael Jordan 有一篇短文,名为What are the Open Problems in Bayesian Statistics?,其中他对一群统计学家进行了调查,以了解他们对统计中未解决问题的看法。我会在这里总结一下(也就是复制粘贴),但最好还是阅读原文。

非参数和半参数

  • 贝叶斯非参数对于哪些问题有用且值得麻烦?
  • David Dunson:“非参数贝叶斯模型涉及无限多的参数,通常选择先验是为了方便,超参数设置为看似合理的值,没有适当的客观或主观理由。”
  • “有几个人注意到,频率论非参数的一个吸引人的应用是半参数推理,其中模型的非参数部分是一个令人讨厌的参数。这些人认为,充实(频率论)理论是可取的。贝叶斯半参数。”

先验

  • “启发仍然是开放问题的主要来源。”
  • “Aad van der Vaart 将客观的贝叶斯颠倒过来,并指出缺乏关于“人们希望先验通过后验的情况”的理论,而不是“仅仅提供贝叶斯平滑方法”。

贝叶斯/频率关系

  • “许多受访者表示希望进一步确定贝叶斯/频率论关系。这在高维模型和数据的背景下最常见,其中不仅难以实施先验规范的主观方法,而且方便的先验可以(高度)误导。”
  • '一些受访者渴望可能更充分地揭示贝叶斯方法的假定优势的非渐近理论; 例如,David Dunson:“通常情况下,频率最优率是通过在有限样本中明显比贝叶斯方法更糟糕的程序获得的。”

计算和统计

  • Alan Gelfand:“如果 MCMC 不再适用于人们想要解决的问题,那么 INLA、变分方法和 ABC 方法的作用是什么?”
  • “一些受访者要求对计算科学和统计科学进行更彻底的整合,并指出在任何给定情况下可以达到的一组推论是模型、先验、数据和计算资源的共同函数,并希望为了更明确地管理这些量之间的权衡。事实上,Rob Kass 提出了“推理可解决性”概念的可能性,其中一些问题被理解为超出希望(例如,回归中的模型选择,其中“对于受非平凡噪声影响的适量数据,当有大量变量在模型中存在或不存在是先验未指定时,不可能获得关于回归系数的有用置信区间”)并且其中还有其他问题(“存在有用置信区间的某些泛函”)是有希望的。”
  • “几位受访者在为某种模糊性道歉的同时,表达了一种感觉,即大量数据并不一定意味着大量计算;相反,大数据中存在的推理强度应该以某种方式转移到算法中并使其成为可能用更少的计算步骤来实现令人满意的(近似)推理解决方案。”

模型选择和假设检验

  • George Casella:“我们现在进行模型选择,但贝叶斯学派似乎并不担心基于所选模型进行推理的属性。如果它是错误的怎么办?当你设置可信区域时,会产生什么后果? “是不是选错了型号?能有什么保证的手续吗?”β1
  • 需要在模型选择的决策理论基础上开展更多工作。
  • David Spiegelhalter:“如何最好地将检查先验/数据冲突作为贝叶斯分析的一个组成部分?”
  • Andrew Gelman:“对于模型检查,一个关键的开放问题是开发用于理解和比较模型的图形工具。图形不仅适用于原始数据;相反,复杂的贝叶斯模型为更好、更有效的探索性数据分析提供了机会。”

我不确定它们有多大,但有一个Wikipedia 页面用于统计未解决的问题。他们的名单包括:

推理和测试

  • 系统性错误
  • Graybill–Deal 估计量的可接纳性
  • 在 Meta 分析中结合相关 p 值
  • 贝伦斯-费雪问题
  • 多重比较
  • 贝叶斯统计中的未解决问题

实验设计

  • 拉丁方格中的问题

更具哲学性质的问题

  • 物种抽样问题
  • 末日论据
  • 交换悖论

作为我正在寻找的答案的一般精神(如果不是很具体)的一个例子,我在“21 世纪的数学挑战”会议上发现了大卫·多诺霍(David Donoho)的“希尔伯特 23 岁”启发演讲:

高维数据分析:维度的诅咒和祝福