机器算法验证 - 关于建模的一般建议 - 吾爱随笔录

关于建模的一般建议

机器算法验证造型参考

2022-03-19 07:02:46

为问题制定数学模型是统计学中最主观的方面之一，但也是最重要的方面之一。处理这个关键但经常被忽视的话题的最佳参考资料是什么？哪位著名的统计学家说过类似的话，“让数据指导模型？”

3个回答

在我看来，Frank Harrell 的“Regression Modeling Strategies”是一个很好的参考。事实上，这可能是我最喜欢的统计书籍。

到目前为止，我只研究了本书的不到一半，但从中得到了很多好东西，例如，将预测变量表示为样条曲线以避免假设线性、缺失数据的多重插补和引导模型验证。也许我最喜欢这本书的一般主题是，一个重要的目标是获得可以在新数据上复制的结果，而不是只保留当前数据的结果。

其他好处是 Frank Harrell 的 R 包 rms，它可以轻松完成书中描述的许多事情，并且他愿意在此处和 R-help 上回答问题。

后一种说法似乎符合Sims批判（(1980) Macroeconomics and Reality , Econometrica, January, pp. 1-48.）的精神。

...提倡使用 VAR 模型作为一种无需理论的方法来估计经济关系，因此可以替代结构模型中的“令人难以置信的识别限制”[来自 wiki]

但可能S.Johansen（协整分析的先驱之一）可以遵循同样的精神。根据我所学的模型构建顺序如下：

明确模型的主要目的：预测、结构关系（模拟）、因果关系、潜在因素等。
抽象模型是可能“太真实”而无法在您的应用程序中完全覆盖的真实世界，但它会让人感觉（或理解）正在发生的事情
语言模型带来一些理论或将您的理解转化为要测试的陈述和假设，在此步骤收集经验（有时称为程式化）事实
数学模型只有现在您才能以方程的形式（差分，微分）制定您的理论，这样的模型通常是确定性的（尽管可以将此步骤与后一步合并并考虑例如随机微分方程），因此您需要。 ..
添加随机部分的计量经济学（统计）模型、应用统计学和概率论的理论和方法、微观和宏观计量经济学。

希望这会有所帮助。

提到“让数据指导模型”可以归因于George EP Box和Gwilym M. Jenkins。在他们的经典教科书《时间序列分析：预测与控制》（1976 年）的第 2 章中说：

自相关函数和谱的样本估计的获得是非结构方法，类似于用直方图表示经验分布函数。它们都是让平稳序列中的数据“为自己说话”的两种方式，并为时间序列分析提供了第一步，就像直方图可以为数据的分布分析提供第一步一样，为一些参数模型，后续分析将基于该模型。

正如 Box & Jenkins 所倡导的，这种让数据说话的建模过程显然在 ARIMA 建模的所有文献中都有提及。例如，在识别暂定 ARIMA 模型的背景下，Pankratz (1983) 说：

请注意，我们不会以关于我们将使用哪种模型的僵化、先入为主的想法来处理可用数据。相反，我们让可用数据以估计自相关函数和部分自相关函数的形式“与我们对话”。

因此，可以说“让数据指导模型”的思想是时间序列分析中的一个普遍特征。

然而，类似的概念可以在其他（子）研究领域中找到。例如，@Dmitrij Celov 正确地引用了 Christopher Sims 的开创性文章 Macroeconomics and Reality (1980)，这是对在宏观经济学中使用大规模联立方程模型的反应。

宏观经济学的传统方法是使用经济理论作为建立宏观经济模型的指南。通常，模型由数百个方程组成，并且会对它们施加限制，例如预先确定某些系数的符号。Sims (1980) 对使用这种先验知识建立宏观经济模型持批评态度：

大型宏观经济模型是动态的这一事实是虚假的“先验”限制的丰富来源。

正如@Dmitrij Celov 已经提到的那样，Sims (1980) 提倡的替代方法是指定向量自回归方程——它们（基本上）基于变量自身的滞后值和其他变量的滞后值。

虽然我很喜欢“让数据自己说话”的概念，但我不太确定这种方法是否可以完全扩展到所有研究领域。例如，考虑进行一项劳动经济学研究，试图解释给定国家内男性和女性工资率之间的差异。在这种模型中选择一组回归变量可能会受到人力资本理论的指导。在其他情况下，可以根据我们感兴趣的内容和常识告诉我们的内容来选择回归变量集。Verbeek (2008) 说：

良好的做法是根据经济论点而不是统计论点来选择一组可能相关的变量。尽管有时会提出其他建议，但统计论证永远不是确定性论证。

真的，我在这里只能触及表面，因为这是一个很大的话题，但我在建模方面遇到的最佳参考是 Granger (1991)。如果你的背景不是经济学，不要让书名让你失望。大多数讨论确实是在建模经济序列的背景下进行的，但我相信其他领域的人会从中受益匪浅，并发现它很有用。

这本书包含关于不同建模方法的精彩讨论，例如：

David Hendry 提倡的从一般到具体的方法（或 LSE 方法）。
具体到一般的方法。
Edward Leamer 的方法（通常与术语“敏感性（或极端界限）分析”和“贝叶斯”相关联）。
巧合的是，Christophers Sims 的方法也包括在内。

值得注意的是，Granger (1991) 实际上是一个论文集，所以与其试图获得这本书的副本，你当然可以查看目录并尝试自己查找文章。（见下面的链接。）

希望这被证明是有帮助的！

参考：

Box，通用电气和 Jenkins，通用汽车 (1976)。时间序列分析：预测和控制。时间序列分析中的 Holden-Day 序列。
格兰杰，CW（主编）。(1991)。建模经济系列：计量经济学方法的读数。牛津大学出版社。
Pankratz, A. (1983) 使用单变量 Box-Jenkins 模型进行预测：概念和案例。纽约：约翰威利父子公司。
加利福尼亚西姆斯（1980 年）。宏观经济学与现实。计量经济学，48（1），1-48。
Verbeek, M. (2008)。现代计量经济学指南。威利。

其它你可能感兴趣的问题

上一篇如何创建具有条件概率的数据集？下一篇在预测曲棍球运动员的职业总进球数时是否在泊松回归中使用偏移量