统计学家通常会忽略计算方面

数据挖掘 数据挖掘 统计数据 大数据
2021-09-27 15:17:39

在“过程挖掘:数据科学在行动”(2016 - Van der Aalst,第 11 页)的介绍性章节中,作者说:

尽管数据科学可以被视为统计学的延续,但大多数统计学家并没有对数据科学的最新进展做出太大贡献。大多数统计学家关注的是理论结果,而不是现实世界的分析问题。对于较大的数据集至关重要的计算方面通常被统计学家忽略。重点是生成建模而不是预测和处理与数据质量和大小相关的实际挑战。

粗体字我不清楚。事实上,由于生成模型是生成数据的模型,一旦我们获得它,我们就可以进行预测。所以,对我来说,生成建模和预测并不是对立的概念。你怎么认为 ?

2个回答

我认为作者所说的是统计学家可能不关心的算法的时间/内存复杂性。对于统计学家来说,制作一个在数学上得到充分证明的模型可能比制作近似值以使模型在现实生活中可行更重要。

我鼓励你看看频繁数学运算的复杂性

通常使用奇异值分解、矩阵求逆、矩阵转置等操作,其成本远高于“可扩展时间复杂度上限” O(n.log(n)) 这会阻止对大量数据集的任何利用。

举个例子,你可以很容易地想象,我们很快就会受到时间复杂度的限制,因为我们无法随着问题规模的增加而增加计算能力——或等待——超过近似线性。取一个很常见的O(n2) 复杂,你不能等待 1000000 更长——或者将你的计算能力乘以 1000000 保持相同的应用程序持续时间 - 当您将数据集大小乘以 1000 (除非你的操作真的很快......)

这是相当理论上的。我会努力简化。假设一个鸡蛋在鸡蛋店卖 3 美元

要得到 3 个鸡蛋,你的口袋里需要 9 美元。-- 但是(如果你是收银员) -- 有人递 9 块钱告诉他/她想要 3 个鸡蛋

买方需要有一个工程师的头脑并“建立”一个需要多少钱的决定,而收银员需要有一个科学家的头脑并打破这个人想要 3 个鸡蛋的 9 美元情景。

数据科学随着数据可用性的爆炸和现实世界的(数据)副本而变得越来越多(在这里,您将作为科学家理解现实世界),而生成思维更多地是关于为现实世界构建解决方案的工程。