本科统计概念是否在实践中使用?

数据挖掘 统计数据
2021-09-22 18:33:41

我很好奇更有经验的数据科学家,你用过 t-test、ANOVA、Wilcoxon 等吗?

基本上我的问题是,你是执行推理任务,还是纯粹的预测任务?(机器学习)

3个回答

t-test 和 ANOVA 经常使用,更多地用于统计数据分析,这对于数据科学家来说是“必须知道”的,但不一定是他们的日常工作。你越是研究医学/生物统计学或社会科学,你就会看到它们被更多地使用。

例如,在数据科学家的日常生活中,特征选择问题就是 ANOVA 提供帮助的情况之一。例如,想象分类问题中的数字特征和离散类。选择好的特征的一种方法是比较每个类的特征值的分布,看看这些分布是否有显着差异。

我还在一个小样本项目中使用过一次 Wilcoxon 测试,我试图识别复杂网络中的模式,该模式是从两个控制组的时间序列创建的。故事是看这些网络的哪些特征(中心性度量、聚类系数、平均路径长度等)产生显着差异(因此可用于识别,即分类问题)。

这种差异是这两组之间特征值分布之间的差异,其中这些分布不一定是高斯分布。Wilcoxon 在那里帮了大忙,因为两组之间某些特征的一些大胆差异实际上在统计上并不显着,如果没有这样的测试,分析可能会走错路。

希望它有所帮助!

我在日常生活中仍然使用的东西:

  • t检验
  • 处理缺失数据的插补技术(太痛苦了!)
  • 时间序列数据的 ACF、PACF 图
  • 标准化技术(例如 Z 分数)
  • 回归诊断(较少)
  • 与上述相关:Shapiro-Wilk test for Normality of a distribution

我将继续编辑此答案,并在出现时添加内容。

作为入门级分析师,我在日常工作中使用这些概念

  • T检验
  • 方差分析
  • 卡方