面向数据挖掘者的实验设计课程

机器算法验证 参考 实验设计
2022-03-09 21:20:23

我是一名从事数据​​挖掘工作的计算机科学家。众所周知,计算机科学家在进行系统的实验设计和评估方面相当差 - 使用 p 值和置信度估计被认为是先进的 :)。

我想知道是否有好的课程/材料可以教计算机科学家关于好的实验设计。为了更具体,我将添加以下信息:

  • 该课程应针对可以假定对概率有合理理解但统计学背景有限的研究生。
  • 该课程应侧重于“不受控制的非自然环境”中的实验设计:换句话说,既没有潜在的物理基础事实,也没有控制数据收集过程的方法(与人类受试者一样)。当然,一门好的课程将侧重于基础知识,但它应该以一种重要的方式处理这种情况。
  • 计算元素将是一个奖励,但不是强制性的。我们处理大量数据,但如果需要,我们可以自己找出计算问题。
3个回答

[Noah Smith][1] 和 [David Smith][2] 不久前在 JHU 开设了一门具有相似动机的课程。

大纲:

  • 第 1 讲:介绍、统计回顾、假设检验、抽样
  • 第 2 讲:感兴趣的统计数据:均值、分位数、方差
  • 第 3-4 课:运行时和“空间”的实验
  • 第 5 讲:探索性数据分析
  • 第 6 讲:参数建模、回归和分类
  • 第 7 讲:统计调试和分析
  • 第8讲:总结与回顾

详情见计算机科学实证研究方法 (600.408) http://www.cs.jhu.edu/~nasmith/erm/

我可以向你推荐两本书而不是课程

第一个,作为生物信息学的应用,第二个用于任何学科

好问题。我很想看到回应。

从统计的角度来看,有两个问题需要解决:大多数统计和统计设计都讨论小样本统计,工程师使用的大多数方法都不是“现代”统计。

除了数据挖掘/探索方面的良好教育以及面对人口(或大样本)统计分析时统计差异的含义之外,我没有直接的建议。

然而,两本用于向学生介绍统计学的有趣书籍将来自 Rand Wilcox(心理学家):

威尔科克斯,RR (2012)。稳健估计和假设检验简介,第 3 版。学术出版社。

威尔科克斯,RR (2010)。现代统计方法的基础知识:大幅提高功效和准确性,Springer,第 2 版。