我正在使用 python 脚本来记录网格作业的 IO。
日志格式如下:
timestamp;fullpath;event;size
1526994189.49;/tmp/folder/;IN_ISDIR;6
1526994189.49;/tmp/folder2/File;IN_ACCESS;36
这些文件长达数百万行。我正在使用 Spark 生成图表并检测作业 IO 中的异常情况。但在此之前,我需要将作业 ID 和作业名插入到制作文件的列中:
timestamp;fullpath;event;size;jobid;jobname
1526994189.49;/tmp/folder/;IN_ISDIR;6;123456;afakejobname
1526994189.49;/tmp/folder2/File;IN_ACCESS;36;123456;afakejobname
问题是我是大数据技术的新手,我想知道使用镶木地板格式是否更好jobname,jobid
或者知道我在同一个日志中只有 15 个不同的作业名和作业ID,是否最好将其转换为苍蝇使用 SparkSQL 连接到一个非常小的表,只在我的日志中jobname;jobid放入。jobid