在回归分析中,“数据生成过程”和“模型”有什么区别?
在回归分析中,数据生成过程和模型有什么区别?
我们都对“模型”的含义有很好的理解,尽管它的技术定义会因学科而异。为了将其与 DGP 进行比较,我首先查看了 Google 搜索“数据生成过程”中的前五名(将同一作者的两次点击算作一个)。
一篇关于美国空军如何在后勤支持中实际创建数据的论文。
发表在环境与规划 A上的一篇论文摘要,内容涉及如何通过计算机“模拟模型”创建“合成微生物群”。
关于“合成数据生成”的网页;也就是说,模拟“探索某些数据特征对……模型的影响”。
数据挖掘会议论文的摘要,断言“数据库中的数据是基础数据生成过程 (dgp) 的结果”。
一本书的章节将感兴趣的数据描述为“来自某种转换一个潜在的[随机]过程……部分或全部[其中]可能未被观察到……”
这些链接展示了术语“数据生成过程”的三种略有不同但密切相关的用法。最常见的是在统计模拟的背景下。其他指的是在持续的情况下(物流)创建数据的实际方式,以及用于持续数据创建过程的概率模型,不打算直接分析。 在最后一种情况下,文本将一个不可观察的随机过程与将要分析的实际数字区分开来,尽管它是在数学上建模的。
这些表明两个略有不同的答案是站得住脚的:
在模拟或创建“合成”数据进行分析的情况下,“数据生成过程”是一种为后续研究制作数据的方式,通常通过计算机的伪随机数生成器。分析将隐含地采用一些模型来描述该 DGP 的数学特性。
在统计分析的背景下,我们可能希望将现实世界的现象(DGP)与将要分析的观察结果区分开来。我们有现象和观察的模型,以及两者如何联系的模型。
那么,在回归中,DGP通常会描述一组数据如何=,假定生产。 例如,可以由实验者设置,或者可以以某种方式观察到它们,然后假定它们会导致或与. 该模型将描述这些数据在数学上相关的可能方式;例如,我们可以说每个是具有期望的随机变量和方差对于未知参数和.
Whuber 的回答非常好,但值得强调的是,统计模型不必在每个方面都类似于数据生成模型,才能成为数据推理探索的合适模型。Liu 和 Meng 在他们最近的 arXived 论文 ( http://arxiv.org/abs/1510.08539 )中非常清楚地解释了这一点:
误解 1. 概率模型必须描述数据的生成。
对模型工作(推理)的更恰当描述是“这样那样的概率模式产生的数据在重要方面与我们的相似。” 要创建蒙娜丽莎的复制品(即控件),不需要让达芬奇复活——一台相机和打印机就足以满足大多数目的。当然,对达芬奇绘画风格的了解会提高我们复制品的质量,就像对真实数据生成过程的科学知识有助于我们设计更有意义的控件一样。但出于不确定性量化的目的,我们模型的工作是指定一组类似于 (D,)。这一点在涉及计算机实验的应用程序中最为清楚,其中概率模式用于描述遵循已知(但高度复杂)确定性模式的数据(Kennedy 和 O'Hagan,2001;Conti 等人,2009)。我们需要一个描述性模型,不一定是生成模型。有关这一点的更多信息,请参见 Lehmann (1990)、Breiman (2001) 以及 Hansen 和 Yu (2001)。
DGP 是真正的模型。这个模型是我们试图用我们最好的技能来代表真实的自然状态。DGP 受“噪声”影响。噪音可以有很多种:
- 一次性干预
- 电平转换
- 趋势
- 季节性变化
- 模型参数的变化
- 方差的变化
如果您不控制这 6 个项目,那么您识别真实 DGP 的能力就会降低。
DGP 是虚拟现实和模拟的独特配方。模型是 DGP 或数据可能生成方式的集合。
阅读罗素戴维森的这个迷你课程的第一页:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf