建立统计模型究竟是什么?
这些天来,当我申请研究工作或咨询工作时,经常会出现“建立模型”或“建模”这个词。这个词听起来很酷,但它们到底指的是什么?你如何建立你的模型?
我查找了预测模型,其中包括 k-nn 和逻辑回归。
建立统计模型究竟是什么?
这些天来,当我申请研究工作或咨询工作时,经常会出现“建立模型”或“建模”这个词。这个词听起来很酷,但它们到底指的是什么?你如何建立你的模型?
我查找了预测模型,其中包括 k-nn 和逻辑回归。
尽管我无论如何都不是统计学家,但我会对此有所了解,但会做很多“建模”——统计和非统计。
首先让我们从基础开始:
什么是模型?
模型是现实的表示,尽管高度简化。想想房子的蜡/木“模型”。你可以触摸/感觉/闻到它。现在,数学模型是使用数字来表示现实。
我听到你问这个“现实”是什么?好的。所以想一下这个简单的情况:你所在州的州长实施了一项政策,说一包香烟的价格现在将在明年花费 100 美元。“目的”是阻止人们购买香烟,从而减少吸烟,从而使吸烟者更健康(因为他们会戒烟)。
一年后,州长问你——这成功了吗?你怎么能这么说?好吧,您可以捕获数据,例如每天或每年售出的数据包数量、调查响应以及您可以获得的与问题相关的任何可测量数据。您刚刚开始为问题“建模”。现在您要分析这个“模型”的含义。这就是统计建模派上用场的地方。您可以运行一个简单的相关/散点图来查看模型的“外观”。您可能会想方设法确定因果关系,即,如果价格上涨确实导致吸烟减少,或者是否有其他混杂因素在起作用(即,也许这完全是另外一回事,而您的模型可能错过了它?)。
现在,构建这个模型是通过“一组规则”(更像是指导方针)来完成的,即什么是/不合法或者什么是/没有意义。你应该知道你在做什么以及如何解释这个模型的结果。构建/执行/解释此模型需要基本的统计知识。在上面的示例中,您需要了解相关/散点图、回归(单变量和多变量)和其他内容。我建议阅读关于直观理解统计的绝对有趣/信息丰富的读物:什么是 p 值无论如何这是一个幽默的统计介绍,将教你从简单到高级的“建模”(即线性回归)。然后,您可以继续阅读其他内容。
因此,请记住模型是现实的代表,并且“所有模型都是错误的,但有些模型比其他模型更有用”。模型是现实的简化表示,您不可能考虑所有事情,但您必须知道要考虑什么和不考虑什么,才能拥有一个可以给您带来有意义结果的好模型。
它不止于此。您也可以创建模型来模拟现实!这就是一堆数字会随着时间而变化的方式(比如说)。这些数字映射到您所在领域的一些有意义的解释。您还可以创建这些模型来挖掘您的数据,以查看各种度量如何相互关联(此处的统计应用可能有问题,但现在不要担心)。示例:您查看一家商店每月的杂货销售情况,并意识到每次购买啤酒时都会购买一包尿布(您构建了一个贯穿数据集的模型并向您展示了这种关联)。这可能很奇怪,但这可能意味着大多数父亲会在周末让孩子坐在孩子身边时买这个?将尿布放在啤酒附近,您可能会增加销售额!啊啊!建模:)
这些只是示例,绝不是专业工作的参考。你基本上建立模型来理解/估计现实将/确实如何运作,并根据输出做出更好的决策。不管统计与否,你可能一辈子都在做建模而没有意识到这一点。祝你好运:)
建立统计模型涉及构建一些现实世界现象的数学描述,这些现象解释了该系统中涉及的不确定性和/或随机性。根据应用领域的不同,这可以从简单的线性回归或基本假设检验到复杂的多变量因子分析或数据挖掘。
对我而言,建模涉及为具有可估计参数的观测数据指定一个概率框架,这些参数可用于识别可观测数据中存在的有价值差异。这叫做权力。概率模型可用于预测或推理。它们可用于校准机器、证明投资回报不足、预测天气或库存,或简化医疗决策。
不一定需要建立模型。在一个孤立的实验中,可以使用非参数建模方法,例如 t 检验来确定两组之间的均值是否存在显着差异。然而,对于许多预测目的,可以建立模型以便及时检测变化。例如,基于过渡的马尔可夫模型可用于预测投资市场价值的上下波动,但在多大程度上可以认为“下跌”比预期的更糟?使用历史证据和观察到的预测因子,人们可以建立一个复杂的模型来校准观察到的下降是否与历史上持续的下降有显着差异。使用控制图、累积发病率图、生存曲线和其他“基于时间”的图表等工具,它'
或者,某些模型是通过随着数据增长而灵活适应而“构建”的。Twitter 的趋势检测和 Netflix 的推荐系统是此类模型的主要示例。他们有一个通用规范(贝叶斯模型平均,后者),允许灵活的模型适应历史变化和趋势,并重新校准以保持最佳预测,例如引入高影响力的电影、大量新用户的吸收或由于季节性因素,电影偏好发生了巨大变化。
介绍了一些数据挖掘方法,因为它们非常擅长实现某些类型的预测方法(同样,获得数据中“预期”趋势或值的问题)。K-NN 是一种结合高维数据并推断受试者是否可以仅仅因为接近(无论是来自年龄、音乐品味、性历史还是其他一些可测量的特征)而得到可靠预测的方法。另一方面,逻辑回归可以获得二元分类器,但更常用于通过称为优势比的参数推断二元结果与一个或多个暴露和条件之间的关联。由于极限定理及其与广义线性模型的关系,优势比是高度规则的参数,具有“高度保守”的 I 型错误(即
建模是识别合适模型的过程。
建模者通常会对重要变量有很好的了解,甚至可能对特定模型有理论基础。他们还将了解有关响应的一些事实以及与预测变量的一般关系,但可能仍不确定他们对模型的一般概念是否完全足够——即使对平均值应该如何工作有很好的理论概念,他们例如,他们可能不确信方差与均值无关,或者他们可能怀疑可能存在一些序列依赖性。
因此,模型识别的几个阶段可能会参考(至少部分)数据。另一种选择是经常冒险拥有非常不合适的模型。
(当然,如果他们有责任,他们必须考虑以这种方式使用数据如何影响他们的推理。)
实际过程因地区和人而异,但可能会发现有些人明确列出了他们的过程中的步骤(例如,Box 和 Jenkins在他们关于时间序列的书中概述了一种这样的方法)。关于如何进行模型识别的想法会随着时间而改变。