将模型拟合到数据和将数据拟合到模型之间是否存在概念或程序差异?第一个措辞的示例可以在https://courses.washington.edu/matlab1/ModelFitting.html中看到,第二个措辞可以在https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html中看到.
模型适合数据还是数据适合模型?
除了您链接的 Wolfram 源之外,几乎我曾经与之交互过的每个来源或人都将这个过程称为将模型拟合到数据。这是有道理的,因为模型是动态对象,而数据是静态的(也就是固定不变的)。
为了说明这一点,我喜欢拉里·瓦瑟曼(Larry Wasserman)的处理方法。用他的话说,统计模型是分布的集合。例如,所有正态分布的集合:
或所有泊松分布的集合:
将分布拟合到数据是将统计模型与一组数据(数据是固定的)相结合的任何算法,并从模型中准确选择一个分布作为“最佳”反映数据的分布。
模型是变化的东西(有点):我们正在将它从一个完整的可能性集合中折叠成一个单一的最佳选择。数据只是数据;什么都没有发生。
在 Rasch 建模领域,将数据拟合到模型是很常见的。假设模型是正确的,分析人员的工作是找到符合它的数据。关于 Rasch的Wikipedia 文章包含有关如何和为什么的更多详细信息。
但我同意其他人的观点,一般来说,在统计学中,我们将模型拟合到数据中,因为我们可以更改模型,但感觉选择或修改数据是不好的形式。
通常,观察到的数据是固定的,而模型是可变的(例如,因为参数是估计的),所以模型是用来拟合数据的,而不是相反。(通常人们在说任何一种表达时都是指这种情况。)
当人们说他们将数据拟合到模型时,我发现自己试图弄清楚他们对数据做了什么?.
[现在,如果您正在转换数据,那可以说是“将数据拟合到模型”,但对于这种情况,人们几乎从不这么说。]
通常,我们假设我们的数据对应于“现实世界”,并且进行任何修改都意味着我们正在远离对“现实世界”建模。例如,需要注意去除异常值,因为即使它使计算更好,异常值仍然是我们数据的一部分。
在使用自举或其他重采样技术测试模型或估计估计器的属性时,我们可能会使用估计的模型和我们的原始数据来模拟新数据。这假设模型是正确的,并且我们没有修改原始数据。