我正在阅读Nature 上的这篇文章,其中在数据分析的背景下解释了一些谬误。我注意到德克萨斯神枪手谬误特别难以避免:
德克萨斯神枪手的寓言说明了数据分析期间等待的认知陷阱:一个无能的射手在谷仓边发射随机模式的子弹,在最大的弹孔群周围画一个目标,并自豪地指向他的成功。
他的靶心显然是可笑的——但对于那些在连胜时相信“热手”的赌徒,或者当彩票开奖时全是奇数时看到超自然意义的人来说,这个谬误并不那么明显。
对于研究人员来说,这也并不总是显而易见的。Pashler 说:“你只是从数据中得到一些鼓励,然后想,嗯,这就是前进的道路。” “你没有意识到你有 27 个不同的选项,而你选择了一个给你最满意或最有趣的结果的选项,而现在你所从事的事情根本不是数据的公正表示。”
我认为这种探索工作是司空见惯的,通常,假设是基于这部分分析构建的。有一个专门用于此过程的完整方法 ( EDA ):
John Tukey 提倡探索性数据分析,以鼓励统计学家探索数据,并可能提出可能导致新数据收集和实验的假设
看起来任何在没有事先假设的情况下执行的探索过程都容易产生虚假的假设。
请注意,上面对 EDA 的描述实际上是在谈论new data collection and experiments
. 我了解在收集到新数据后,进行验证性数据分析 (CDA) 是合适的。但是,我认为这种区分不是很清楚,尽管分离 EDA 和 CDA 是理想的,但肯定在某些情况下这是不可行的。我什至会说,严格遵循这种分离是不常见的,大多数从业者根本不赞同 EDA 范式。
所以我的问题是:EDA(或任何探索数据的非正式过程)是否使它更有可能落入德克萨斯神枪手谬误?