寻找数据处理/争论的语言和框架

数据挖掘 数据挖掘 数据清理
2022-02-24 16:12:14

我有一系列广泛的项目,需要从许多不同类型的不同来源(网站、Web API、传感器、遗留文本文件等)导入数据。是否有自下而上构建的良好框架(最好是开源的)来解决此类问题?最好是利用适当的语言(最有可能是python)并且已经拥有广泛的插件数据库。

2个回答

如果你对一个非常高级(企业架构)的框架感兴趣,我建议你看看MIKE2.0 Methodology作为一个信息管理框架,MIKE2.0 的覆盖范围当然比您感兴趣的领域要广泛得多,但它是一个可靠、有趣和开放(根据知识共享署名许可授权)的框架。更适合您关注的是提取、转换、加载 (ETL)框架,该框架在商业智能和数据仓库环境中非常流行。在更实际的情况下,您可能想查看我的答案在 Quora 上关于开源主数据管理 (MDM) 解决方案。请注意 Talend 解决方案(免责声明:我不隶属于这家公司或任何公司),它涵盖了广泛的 MDM、ETL 和数据集成领域,作为开源和商业产品。

围绕 Python 进行的所有科学计算开发都是一个不错的选择。Continuum 的 Anaconda非常容易启动和运行。在分布式环境中也得到很好的支持。

  • 用于快速矩阵运算的 Numpy
  • 用于数据框、处理、分析、可视化的 Pandas
  • Statsmodels 和 Scikit 用于模型、指标、ML 算法等
  • ...