机器算法验证 - 开始使用统计建模的提示和技巧？ - 吾爱随笔录

机器算法验证贝叶斯造型参考探索性数据分析

2022-03-05 15:35:01

我在数据挖掘领域工作，几乎没有受过正规的统计学教育。最近我读了很多关于学习和挖掘的贝叶斯范式的工作，我觉得很有趣。

我的问题是（分几个部分），给定一个问题，是否有一个可以构建统计模型的通用框架？当给定一个数据集时，您要对其底层流程进行建模时，您首先要做的是什么？是否有很好的书籍/教程可以解释这个过程，还是经验问题？在构建模型时，推理是您的首要考虑，还是您首先要描述数据，然后再担心如何使用它来计算？

任何见解将不胜感激！谢谢。

4个回答

在统计学中，就像在数据挖掘中一样，您从数据和目标开始。在统计学中，推理非常关注，即使用样本回答人口水平的问题。在数据挖掘中，重点通常是预测：您从样本（训练数据）创建模型以预测测试数据。

那么统计过程是：

使用摘要和图表探索数据——取决于统计学家对数据的驱动方式，有些人会更加开放，从各个角度看待数据，而其他人（尤其是社会科学家）将通过感兴趣的问题（例如，特别绘制感兴趣的变量而不是其他变量）
1. 选择适当的统计模型系列（例如，连续 Y 的线性回归、二进制 Y 的逻辑回归或计数数据的泊松），并执行模型选择
2. 估计最终模型
3. 测试模型假设以确保它们得到合理满足（不同于测试数据挖掘中的预测准确性）
4. 使用模型进行推理——这是与数据挖掘不同的主要步骤。“p-value”这个词到了这里......

看看任何基本的统计教科书，你会发现一章是关于探索性数据分析的，然后是一些分布（这将有助于选择合理的近似模型），然后是推理（置信区间和假设检验）和回归模型。

我向您描述了经典的统计过程。但是，我有很多问题。对推理的关注完全主导了这些领域，而预测（非常重要和有用）几乎被忽视了。此外，如果您查看社会科学家如何使用统计数据进行推理，您会发现他们使用统计数据的方式完全不同！你可以在这里查看更多信息

就书籍而言，Hastie、Tibshirani 和 Friedman 的“统计学习要素”非常好。

整本书可在作者的网站上获得；您可能想看看它是否完全适合您的需求。

至于（在线）参考资料，我建议您查看 Andrew Moore 关于Statistical Data Mining的教程幻灯片。

有很多关于数据挖掘和机器学习的教科书；Hand 等人的《数据挖掘原理》和Alpaydin的《机器学习简介》也许是一个很好的起点。

我发现的最好的贝叶斯入门书籍是Data Analysis - A Bayesian Tutorial。这是相当实用的。

其它你可能感兴趣的问题