这可能是一个过于宽泛的问题,但我确实发现很难找到有关使用 SQL Server 分析服务数据挖掘项目与使用 R 运行各种算法的信息。这主要是因为与我一起工作的所有数据科学人员对SSAS一无所知,因为似乎没有人使用它。:)
数据库专家
在开始之前,让我澄清一下。我是数据库专家,而不是数据科学家。我与主要使用 R 的数据科学家一起工作。我帮助这些人创建大型数据集,他们可以在其中分析和处理数据。
我的目标是利用 SQL Server 附带的一个没有人真正利用的工具,因为与我的其他方法和工具(如 R、SAS、SSPS 等)相比,似乎没有人知道它是如何工作的。营。
SSAS
除了创建 OLAP 多维数据集之外,我从未真正使用过 SQL Server Analysis Services (SSAS)。了解 SSAS 的人,还可以对多维数据集或直接对 SQL Server 中的数据执行数据挖掘任务。
SSAS 数据挖掘带有一系列算法类型:
- 分类算法根据数据集中的其他属性预测一个或多个离散变量。
- 回归算法根据数据集中的其他属性预测一个或多个连续变量,例如利润或损失。
- 分割算法将数据分成具有相似属性的项目组或集群。
- 关联算法发现数据集中不同属性之间的相关性。这种算法最常见的应用是创建关联规则,可用于购物篮分析。
- 序列分析算法总结数据中的频繁序列或情节,例如 Web 路径流。
预测离散列
通过这些不同的算法选项,我可以开始从数据中进行一般预测,例如根据可预测的列 Bike Buyers 与输入列 Age 简单地找出谁将购买自行车。直方图显示一个人的年龄有助于区分该人是否会购买自行车。
预测连续列
当 Microsoft 决策树算法基于连续可预测列构建树时,每个节点都包含一个回归公式。分裂发生在回归公式中的非线性点。例如,考虑下图。
比较
话虽如此,我似乎可以对数据运行一系列算法,并且在 SSAS 中还可以使用各种函数来针对数据运行。看来我也可以在 Visual Studio 中开发自己的算法并将它们部署到 SSAS(如果我没记错的话)。
那么,关于 R 的语言和工具,我在这里缺少什么?仅仅是他们比 SSAS 等更灵活地部署和编辑复杂算法吗?