我有一个学校的大数据项目,基本上老师会给我们大量的文本文档(来自 Gutenberg 项目数据集),他希望我们提供“关键字”更相关的文档作为输出,他还希望我们将项目分为 3 个部分:
- 数据采集、预处理(清理、转换、连接等)、加载。ETL 过程。
- 数据处理。
- 用户友好的应用程序。
我需要为项目的每个部分定义我将使用哪些技术或方法,但我不知道在 ETL 部分该怎么做,因为这些文件将以清晰的英语编写(它们是书籍),我会很感激你能给我的任何信息,以及项目的其他部分。
感谢一百万阅读。
我有一个学校的大数据项目,基本上老师会给我们大量的文本文档(来自 Gutenberg 项目数据集),他希望我们提供“关键字”更相关的文档作为输出,他还希望我们将项目分为 3 个部分:
我需要为项目的每个部分定义我将使用哪些技术或方法,但我不知道在 ETL 部分该怎么做,因为这些文件将以清晰的英语编写(它们是书籍),我会很感激你能给我的任何信息,以及项目的其他部分。
感谢一百万阅读。
我会建议一个数据结构。这将满足您对数据采集、预处理、数据质量、主数据管理等的需求。
鉴于我在 Talend 工作,我会推荐我们的数据结构。=)
这是巴拿马文件的案例研究。https://www.talend.com/blog/2017/01/17/talend-data-masters-2016-icij-decoded-panama-papers-talend/
该案例研究中将数据结构与分析工具相结合的概念是通用概念,无论您使用哪种数据结构。
您可以在https://www.talend.com/download/找到 Talend 的试用版和开放版。
编辑:这是另一个示例,它实现了显示古腾堡项目电子书的后端和 UI。它允许使用骆驼路线导入整个古腾堡索引。 https://github.com/Talend/tesb-rt-se/tree/master/examples/tesb/ebook