处理大数据

数据挖掘 大数据 软件推荐
2022-03-11 17:51:19

我正在处理一个以图像和视频形式处理大量数据的项目(与风工程相关的数据)。我的要求是根据我拥有的数据构建一个预测算法。我发现了很多工具可以用来分析数据,每种工具都有自己的优点和缺点。大数据对我来说真的很陌生,我发现选择一个平台开始非常困难。这里应该有其他人应该处理过类似的情况。

  • 在选择分析大数据的工具之前,我应该主要考虑哪些标准?

我考虑的一些标准:可视化、交互、安全性、数据访问和集成、响应速度、集成数据挖掘、模式匹配、易用性等。如您所见,我为标准来自广泛阅读有关该主题的不同文章。但我无法缩小列表范围,也无法在可用于分析的各种工具中找到这些标准的个别贡献。

让我也列出一些我在谷歌搜索后发现的工具:Knime、Statistica 2、Rapidminer、Orange、WEKA、KEEL、R 和 RATTLE。

我可以根据什么从执行类似任务的工具列表中选择一个工具?

更新基于评论

目标:开发一种分析来自风车的数据并生成报告的软件。该软件应该能够根据分析预测风车何时会发生故障。

该项目仍处于收集用户需求的阶段。也许我太早得出关于应该使用什么工具的结论。

其他人建议我应该最终确定需求,然后考虑一个可以帮助我完成工作的工具。那么,我是否有可能在找到工具之前找到应该分析什么以及如何分析?是否也有可能在不知道分析后工具的结果的情况下找到一种用于预测分析的算法。

2个回答

Syncfusion 提供了一个大数据平台,它是一个易于使用的 Windows Hadoop 发行版。它可以帮助您快速入门。Syncfusion 还提供了一个PMML 处理库,您可以使用它来执行预测分析模型。还有一个仪表板平台可以帮助可视化数据。

如果您符合条件,以上所有内容均可通过社区许可证免费获得。

注意:我为 Syncfusion 工作。

在选择分析大数据的工具之前,我应该主要考虑哪些标准?

当涉及到工具选择时,需要考虑很多标准。可以是:

  • 数据的结构。(数据模型例如:分层、表格等)
  • 数据类型和问题陈述是什么。(时间序列或分类等)
  • 速度
  • 安全

目标:开发一种分析来自风车的数据并生成报告的软件。该软件应该能够根据分析预测风车何时会发生故障。

几乎所有现有的分析工具,如 Python、Julia、R 等都可以做到这一点。

是否也有可能在不知道分析后工具的结果的情况下找到一种用于预测分析的算法。

是的。 可以通过查看数据和数据内容来推断预测算法或技术。它不依赖于工具。

我想包括一些我认为对您有用的要点:

  • 根据您的数据和类型选择数据库。根据您的数据,NoSQL 数据库会更相关和更合适。
  • 只有在您清楚地了解问题陈述和要点以及清楚地查看数据以进行探索性分析之后,才能选择算法和技术。
  • 如果您想要更大的灵活性,请使用 Python、R 和 Julia 等工具/编程语言。否则,您可以使用 Knime、Orange(它也有Python 库)、RapidMiner 等工具。