“让数据自己说话”的意图是什么?

机器算法验证 探索性数据分析 引述
2022-03-18 05:18:45

在阅读以下论文时,我遇到了以下声明:

如前所述,它通常在没有任何参考概率模型的情况下呈现,这符合 Benzecri [1973] 的“让数据自己说话”的想法。

(引文来自 JP Benzécri。L'analysis des données。Tome II:L'analysis des 对应。Dunod,1973 年。)

从我阅读本文的方式来看,听起来“让数据自己说话”的意思是考虑跨数据的各种度量而不考虑似然函数或数据生成过程

虽然我之前听过“让数据自己说话”这句话,但我并没有认真思考过这句话的含义。我的上述解释是这句话的典型含义吗?

2个回答

解释取决于上下文,但有一些常见的上下文会出现这种情况。该陈述经常在贝叶斯分析中使用,以强调我们理想地希望分析中的后验分布对先前的假设具有鲁棒性,以便数据的影响“支配”后验。更一般地说,引用通常意味着我们希望我们的统计模型符合数据的结构,而不是强迫数据解释为模型的不可验证的结构假设。

您所指的特定引用由附加引用补充:“模型必须遵循数据,而不是相反”(翻译自 Benzécri J (1973) L'Analyse des Données. Tome II: L'Analyse des Correspondances .杜诺,第 6 页)。Benzécri 认为统计模型应该从数据中提取结构,而不是强加结构。他认为探索性图形方法的使用对于让分析师“让数据说话”非常重要。

早在 2005 年左右,当“数据挖掘”是对统计行业的最新威胁时,我记得看到一张海报,上面写着“数据挖掘原则”,其中一个是“让数据说话”(不记得是不是“为自己”)包括在内)。如果您考虑可能被视为“数据挖掘”的算法,就会想到先验和递归分区,两种算法可以在没有统计假设的情况下被激发,并产生基础数据集的非常基本的摘要。

@Ben 比我更了解这句话的历史,但考虑一下论文中引用的引用:

MCA 可以看作是分类数据的 PCA 的对应物,它涉及减少数据维数以提供一个子空间,以最大限度地提高投影点的可变性。如前所述,它通常在没有任何参考概率模型的情况下呈现,这与 Benz´ecri [1973] 的“让数据自己说话”的想法一致。

在我看来,MCA 的过程确实类似于先验或递归分区(或地狱,算术平均值),因为它可以在根本没有任何建模的情况下被激发,并且是对基于数据集有意义的机械操作在一些首要原则上。

让数据说话的范围很广。具有强先验的完全贝叶斯模型将是一方面。频率论非参数模型会更接近另一端。