Microsoft R Server 的 3 个架构组件之间有什么区别?

数据挖掘 r
2022-02-16 07:32:34

最近,我一直在试验 Microsoft R Server(MRS) 和 SQL Server R Services。我发现 MRS 是基于架构组件构建的,例如针对快速并行执行优化的ScaleR算法、用于管理计算资源的DistributedR并行计算框架以及用于与数据源的多功能连接的ConnectR

我也了解到(并且感到困惑)

  • ScaleR算法基本上是基于DistributedR框架构建的RevoScaleR 包的功能。
  • ConnectR架构的组件也是一堆RevoScaleR函数/适配器,用于访问各种数据源。

我的问题是:RevoScaleRDistributedRConnectR
的关系是 什么DeployR 在哪里适合这一切? 一般来说,我想知道RevoScaleR 包DistributedR ScaleR ConnectR DeployR之间的高级差异








1个回答

RevoScaleR 包和 ScaleR 是相同的(我认为 MS 收购后它变成了 scaleR)一种新的文件格式,专门为大型文件设计,例如:XDF 文件格式(基于块的数据格式)RxDataSource(旨在支持使用外部存储器算法与 . xdf 文件。)基于 PEMA 的算法 最常用于大型数据集的统计算法的外部存储器实现,例如:rxSummary、rxCrossTabs、rxLinMod。rxKMeans、rxGlm 等。一个可扩展的编程框架,允许 R 程序员编写他们自己的外部存储器算法,这些算法可以利用 ScaleR Enterprise 的新大数据功能。

DistributedR 用于支持大数据框架 ConnectR 它具有与其他数据源交互的所有连接器 DeployR 用于将 R 与任何应用程序编程集成