SQL Server Analysis Services 与 R 相比如何?

数据挖掘 数据挖掘 r 算法
2021-09-25 12:55:08

这可能是一个过于宽泛的问题,但我确实发现很难找到有关使用 SQL Server 分析服务数据挖掘项目与使用 R 运行各种算法的信息。这主要是因为与我一起工作的所有数据科学人员对SSAS一无所知,因为似乎没有人使用它。:)

数据库专家

在开始之前,让我澄清一下。我是数据库专家,而不是数据科学家。我与主要使用 R 的数据科学家一起工作。我帮助这些人创建大型数据集,他们可以在其中分析和处理数据。

我的目标是利用 SQL Server 附带的一个没有人真正利用的工具,因为与我的其他方法和工具(如 R、SAS、SSPS 等)相比,似乎没有人知道它是如何工作的。营。

SSAS

除了创建 OLAP 多维数据集之外,我从未真正使用过 SQL Server Analysis Services (SSAS)。了解 SSAS 的人,还可以对多维数据集或直接对 SQL Server 中的数据执行数据挖掘任务。

SSAS 数据挖掘带有一系列算法类型:

  • 分类算法根据数据集中的其他属性预测一个或多个离散变量。
  • 回归算法根据数据集中的其他属性预测一个或多个连续变量,例如利润或损失。
  • 分割算法将数据分成具有相似属性的项目组或集群。
  • 关联算法发现数据集中不同属性之间的相关性。这种算法最常见的应用是创建关联规则,可用于购物篮分析。
  • 序列分析算法总结数据中的频繁序列或情节,例如 Web 路径流。

预测离散列

通过这些不同的算法选项,我可以开始从数据中进行一般预测,例如根据可预测的列 Bike Buyers 与输入列 Age 简单地找出谁将购买自行车。直方图显示一个人的年龄有助于区分该人是否会购买自行车。

在此处输入图像描述

预测连续列

当 Microsoft 决策树算法基于连续可预测列构建树时,每个节点都包含一个回归公式。分裂发生在回归公式中的非线性点。例如,考虑下图。

在此处输入图像描述

比较

话虽如此,我似乎可以对数据运行一系列算法,并且在 SSAS 中还可以使用各种函数来针对数据运行。看来我也可以在 Visual Studio 中开发自己的算法并将它们部署到 SSAS(如果我没记错的话)。

那么,关于 R 的语言和工具,我在这里缺少什么?仅仅是他们比 SSAS 等更灵活地部署和编辑复杂算法吗?

1个回答

在我看来,SSAS 似乎对以下人员更有意义

  • 对微软的技术栈平台进行了大量投资
  • 与命令行相比,更喜欢点击式界面(GUI);
  • 专注于数据仓库(OLAP 多维数据集等);
  • 在统计方法和算法多样性方面的需求有限
  • 跨语言集成需求有限
  • 不太关心开放性跨平台集成厂商锁定

您可以在Sami Badawi的这篇博文中找到有用的信息但是,请注意,该帖子不是最近的,因此某些信息可能已过时。另外,该帖子包含初步评论,可能不是很准确或全面。如果你正在考虑数据科学,同时考虑留在微软生态系统中,我建议你看看微软自己的机器学习平台 Azure ML。这篇博文简要比较了(早期)Azure ML 和 SSAS。