开始使用统计建模的提示和技巧?

机器算法验证 贝叶斯 造型 参考 探索性数据分析
2022-03-05 15:35:01

我在数据挖掘领域工作,几乎没有受过正规的统计学教育。最近我读了很多关于学习和挖掘的贝叶斯范式的工作,我觉得很有趣。

我的问题是(分几个部分),给定一个问题,是否有一个可以构建统计模型的通用框架?当给定一个数据集时,您要对其底层流程进行建模时,您首先要做的是什么?是否有很好的书籍/教程可以解释这个过程,还是经验问题?在构建模型时,推理是您的首要考虑,还是您首先要描述数据,然后再担心如何使用它来计算?

任何见解将不胜感激!谢谢。

4个回答

在统计学中,就像在数据挖掘中一样,您从数据和目标开始。在统计学中,推理非常关注,即使用样本回答人口水平的问题。在数据挖掘中,重点通常是预测:您从样本(训练数据)创建模型以预测测试数据。

那么统计过程是:

  1. 使用摘要和图表探索数据——取决于统计学家对数据的驱动方式,有些人会更加开放,从各个角度看待数据,而其他人(尤其是社会科学家)将通过感兴趣的问题(例如,特别绘制感兴趣的变量而不是其他变量)

    1. 选择适当的统计模型系列(例如,连续 Y 的线性回归、二进制 Y 的逻辑回归或计数数据的泊松),并执行模型选择

    2. 估计最终模型

    3. 测试模型假设以确保它们得到合理满足(不同于测试数据挖掘中的预测准确性)

    4. 使用模型进行推理——这是与数据挖掘不同的主要步骤。“p-value”这个词到了这里......

看看任何基本的统计教科书,你会发现一章是关于探索性数据分析的,然后是一些分布(这将有助于选择合理的近似模型),然后是推理(置信区间和假设检验)和回归模型。

我向您描述了经典的统计过程。但是,我有很多问题。对推理的关注完全主导了这些领域,而预测(非常重要和有用)几乎被忽视了。此外,如果您查看社会科学家如何使用统计数据进行推理,您会发现他们使用统计数据的方式完全不同!你可以在这里查看更多信息

就书籍而言,Hastie、Tibshirani 和 Friedman 的“统计学习要素”非常好。

整本书可在作者的网站上获得;您可能想看看它是否完全适合您的需求。

至于(在线)参考资料,我建议您查看 Andrew Moore 关于Statistical Data Mining的教程幻灯片。

有很多关于数据挖掘和机器学习的教科书;Hand 等人的《数据挖掘原理》和Alpaydin的《机器学习简介》也许是一个很好的起点。

我发现的最好的贝叶斯入门书籍是Data Analysis - A Bayesian Tutorial这是相当实用的。