您需要用于数据科学的虚拟机吗?

数据挖掘 工具 软件推荐
2021-09-19 12:33:31

我是数据科学领域的新手,想进入它,那里有很多工具。这些虚拟机上有很多软件,但我无法找到任何并排比较。

这是我研究的开始,但如果有人能告诉我客观上一个功能更丰富,支持更大的社区,并且对入门有用,那将有很大帮助:

datasciencetoolKIT.org -> vm 在 vagrant cloud (4 GB) 上,似乎更适合 R、iPython notebook 和其他有用的命令行工具(html->txt、json->xml 等)。八月份有一本详细的书出版。

datasciencetoolBOX.org -> vm 是一个 vagrant box (24 GB),可以从他们的网站下载。这里似乎有更多的特色,更多的文学作品。

2个回答

你需要虚拟机吗?

您需要记住,虚拟机是您自己或其他可以运行操作系统的机器硬件配置的软件仿真。在最基本的术语中,它充当虚拟操作系统和您自己的操作系统之间的接口层,然后与较低级别的硬件进行通信以提供对虚拟操作系统的支持。这对您意味着:

缺点

硬件支持

虚拟机技术的一个缺点是它只支持虚拟机管理程序和客户操作系统都支持的硬件。即使客户操作系统支持物理硬件,它也只能看到虚拟机提供的虚拟硬件。虚拟机硬件支持的第二个方面是提供给客户操作系统的硬件。无论主机中的硬件如何,呈现给来宾环境的硬件通常都是相同的(CPU 除外,它可以显示出来)。例如,VMware GSX Server 提供 AMD PCnet32 快速以太网卡或优化的 VMware 专有网卡,具体取决于您的选择。主机中的网卡无关紧要。VMware GSX Server 执行来宾环境之间的转换 s 网卡和宿主环境的网卡。这对于标准化非常有用,但这也意味着 VMware 无法理解的主机硬件不会出现在来宾环境中。

绩效处罚

虚拟机技术会因在物理硬件之上但在客户操作系统之下运行额外的层而造成性能损失。性能损失因使用的虚拟化软件和正在运行的客户软件而异。这很重要。

优点

隔离

采用虚拟化的关键原因之一是将应用程序彼此隔离。如果一切正常,在一台机器上运行所有东西会很棒,但很多时候它会导致不良的交互甚至彻底的冲突。原因通常是软件问题或业务需求,例如需要隔离的安全性。虚拟机允许您在其自己的沙盒环境中隔离每个应用程序(或一组应用程序)。虚拟机可以在同一台物理机上运行(简化 IT 硬件管理),但对于您正在运行的软件而言,它们看起来是独立的机器。出于所有意图和目的——除了性能之外,虚拟机都是独立的机器。如果一个虚拟机由于应用程序或操作系统错误而停机,其他虚拟机继续运行,

标准化

虚拟机提供的另一个关键好处是标准化。提供给客户操作系统的硬件大部分是统一的,通常 CPU 是唯一的“直通”组件,客户可以看到主机上的内容。标准化的硬件平台可降低支持成本并增加您可用于实现为您的企业带来竞争优势的目标的 IT 资源份额。主机可以不同(实际上它们通常是在不同时间获取硬件时),但虚拟机在所有主机上看起来都是相同的。

易于测试

虚拟机让您轻松测试场景。当今大多数虚拟机软件都提供快照和回滚功能。这意味着您可以停止虚拟机,创建快照,在虚拟机中执行更多操作,然后一次又一次地回滚,直到完成测试。这对于软件开发非常方便,但对于系统管理也很有用。管理员可以对系统进行快照并安装一些软件或进行一些他们怀疑可能会破坏系统稳定性的配置更改。如果软件安装或更改工作正常,那么管理员可以提交更新。如果更新损坏或破坏系统,管理员可以回滚它们。虚拟机还通过启用虚拟网络来促进场景测试。例如,在 VMware Workstation 中,您可以使用可配置的参数在虚拟网络上设置多个虚拟机,例如拥塞和延迟导致的数据包丢失。因此,您可以测试对时间敏感或对负载敏感的应用程序,以了解它们在模拟的繁重工作负载压力下的性能。

流动性

虚拟机很容易在物理机之间移动。当今市场上的大多数虚拟机软件都将客户环境中的整个磁盘存储为主机环境中的单个文件。快照和回滚功能是通过将状态更改存储在主机信息中的单独文件中来实现的。让一个文件代表整个来宾环境磁盘可以提高虚拟机的移动性。将虚拟机转移到另一台物理机就像将虚拟磁盘文件和一些配置文件移动到另一台物理机一样简单。部署虚拟机的另一个副本与传输虚拟机相同,不同之处在于您复制文件而不是移动文件。

如果我刚开始,我应该使用哪个 VM?

如果您刚刚进入数据科学领域,Data Science Box 或 Data Science Toolbox 是您最好的选择。他们拥有您需要的基本软件,主要区别在于每个软件都可以在其中运行的虚拟环境。DSB 可以在 AWS 上运行,而 DST 可以在 Virtual Box(虚拟机最常用的工具)上运行。

来源

在大多数情况下,实践数据科学家在个人计算机安装首选软件包上创建自己的工作环境。通常,这是对计算资源的充分有效利用,因为要在主机上运行虚拟机 (VM),您必须为其分配很大一部分 RAM。除非有大量 RAM,否则该软件在主计算机和虚拟机上的运行速度都会明显变慢。

由于这种对速度的影响,使用虚拟机作为主要工作环境并不常见,但在需要额外工作环境的情况下,它们是一个很好的解决方案。

在以下情况下考虑虚拟机:

  1. 在教授课程或在会议上进行演示时,需要轻松复制许多相同的计算环境。
  2. 需要保存和重新创建实验或计算的精确环境。
  3. 需要运行不同的操作系统或在不同操作系统上运行的工具上测试解决方案。
  4. 想在主机上安装软件工具包之前先试用一下。例如,在 Udacity的 Hadoop 简介课程中,有机会在 VM 上安装 Hadoop (CDH) 实例。
  5. VM 有时用于在云中快速部署,例如 AWS EC、Rackspace 等。

原始问题中提到的 VM 被制成易于安装的数据科学软件包。不止这两个。Jeroen Janssens 的这篇文给出了至少四个的比较:

  1. 数据科学工具箱
  2. 挖掘社交网络
  3. 数据科学工具包
  4. 数据科学盒