我很好奇是否有人可以指出一些成功的提取、转换、加载 (ETL)自动化库、论文或用于有些不均匀数据的用例?
我很想看到任何现有的处理可扩展 ETL 解决方案的库。理想情况下,它们能够在 4196 个内核(256 个 I2.8xlarge AWS 机器)上运行数十或数百小时,从 100 个不均匀的数据集中摄取 1-5 PB 的数据,其中包含 500 亿条记录。我的意思是理想的,因为我很想知道一个具有 10% 功能的系统来帮助减少我们团队的 ETL 负载。
否则,我将有兴趣查看有关该主题的任何书籍或评论文章或高质量的研究论文。我进行了文献综述,只发现质量较低的会议论文集有可疑的说法。
我看过一些广告宣传的商业产品,但同样,这些产品在没有太多证据证明其功效的情况下提出了可疑的说法。
数据集是矩形的,可以采用固定宽度文件、CSV、TSV 和 PSV 的形式。字段数量从 6 到 150 不等,主要包含有关实体的基于文本的信息。基数对于个人信息(地址)很大,但对于特定细节(如汽车类型(面包车、SUV、轿车))则较小。
通常需要从缩写数据到人类可读格式的映射,将记录转换为first-normal-form也是如此。
对于行家来说可能很明显,我正在寻找超越确定性方法的技术,使用某种半监督或监督学习模型。
我知道这是一项艰巨的任务,但我很想在开始一些 ETL 自动化任务之前评估最先进的技术,以帮助指导我们将目光投向多远。
谢谢你的帮助!