我在数据挖掘领域工作,几乎没有受过正规的统计学教育。最近我读了很多关于学习和挖掘的贝叶斯范式的工作,我觉得很有趣。
我的问题是(分几个部分),给定一个问题,是否有一个可以构建统计模型的通用框架?当给定一个数据集时,您要对其底层流程进行建模时,您首先要做的是什么?是否有很好的书籍/教程可以解释这个过程,还是经验问题?在构建模型时,推理是您的首要考虑,还是您首先要描述数据,然后再担心如何使用它来计算?
任何见解将不胜感激!谢谢。
我在数据挖掘领域工作,几乎没有受过正规的统计学教育。最近我读了很多关于学习和挖掘的贝叶斯范式的工作,我觉得很有趣。
我的问题是(分几个部分),给定一个问题,是否有一个可以构建统计模型的通用框架?当给定一个数据集时,您要对其底层流程进行建模时,您首先要做的是什么?是否有很好的书籍/教程可以解释这个过程,还是经验问题?在构建模型时,推理是您的首要考虑,还是您首先要描述数据,然后再担心如何使用它来计算?
任何见解将不胜感激!谢谢。
在统计学中,就像在数据挖掘中一样,您从数据和目标开始。在统计学中,推理非常关注,即使用样本回答人口水平的问题。在数据挖掘中,重点通常是预测:您从样本(训练数据)创建模型以预测测试数据。
那么统计过程是:
使用摘要和图表探索数据——取决于统计学家对数据的驱动方式,有些人会更加开放,从各个角度看待数据,而其他人(尤其是社会科学家)将通过感兴趣的问题(例如,特别绘制感兴趣的变量而不是其他变量)
选择适当的统计模型系列(例如,连续 Y 的线性回归、二进制 Y 的逻辑回归或计数数据的泊松),并执行模型选择
估计最终模型
测试模型假设以确保它们得到合理满足(不同于测试数据挖掘中的预测准确性)
使用模型进行推理——这是与数据挖掘不同的主要步骤。“p-value”这个词到了这里......
看看任何基本的统计教科书,你会发现一章是关于探索性数据分析的,然后是一些分布(这将有助于选择合理的近似模型),然后是推理(置信区间和假设检验)和回归模型。
我向您描述了经典的统计过程。但是,我有很多问题。对推理的关注完全主导了这些领域,而预测(非常重要和有用)几乎被忽视了。此外,如果您查看社会科学家如何使用统计数据进行推理,您会发现他们使用统计数据的方式完全不同!你可以在这里查看更多信息
就书籍而言,Hastie、Tibshirani 和 Friedman 的“统计学习要素”非常好。
整本书可在作者的网站上获得;您可能想看看它是否完全适合您的需求。
至于(在线)参考资料,我建议您查看 Andrew Moore 关于Statistical Data Mining的教程幻灯片。
有很多关于数据挖掘和机器学习的教科书;Hand 等人的《数据挖掘原理》和Alpaydin的《机器学习简介》也许是一个很好的起点。
我发现的最好的贝叶斯入门书籍是Data Analysis - A Bayesian Tutorial。这是相当实用的。