parquet 格式:关于日志内容的建议

数据挖掘 阿帕奇火花 数据格式
2022-03-05 06:57:02

我正在使用 python 脚本来记录网格作业的 IO。
日志格式如下:

timestamp;fullpath;event;size
1526994189.49;/tmp/folder/;IN_ISDIR;6
1526994189.49;/tmp/folder2/File;IN_ACCESS;36

这些文件长达数百万行。我正在使用 Spark 生成图表并检测作业 IO 中的异常情况。但在此之前,我需要将作业 ID 和作业名插入到制作文件的列中:

timestamp;fullpath;event;size;jobid;jobname
1526994189.49;/tmp/folder/;IN_ISDIR;6;123456;afakejobname
1526994189.49;/tmp/folder2/File;IN_ACCESS;36;123456;afakejobname

问题是我是大数据技术的新手,我想知道使用镶木地板格式是否更好jobnamejobid
或者知道我在同一个日志中只有 15 个不同的作业名和作业ID,是否最好将其转换为苍蝇使用 SparkSQL 连接到一个非常小的表,只在我的日志中jobname;jobid放入。jobid

1个回答

您的第二个解决方案听起来不错,要以最有效的方式使用它,请在 Spark 中查找广播变量。

然后,您将使用 spark 中可用的功能对其进行优化。

参考:https ://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-broadcast.html