数据挖掘 - parquet 格式：关于日志内容的建议 - 吾爱随笔录

我正在使用 python 脚本来记录网格作业的 IO。
日志格式如下：

timestamp;fullpath;event;size
1526994189.49;/tmp/folder/;IN_ISDIR;6
1526994189.49;/tmp/folder2/File;IN_ACCESS;36

这些文件长达数百万行。我正在使用 Spark 生成图表并检测作业 IO 中的异常情况。但在此之前，我需要将作业 ID 和作业名插入到制作文件的列中：

timestamp;fullpath;event;size;jobid;jobname
1526994189.49;/tmp/folder/;IN_ISDIR;6;123456;afakejobname
1526994189.49;/tmp/folder2/File;IN_ACCESS;36;123456;afakejobname

问题是我是大数据技术的新手，我想知道使用镶木地板格式是否更好jobname，jobid
或者知道我在同一个日志中只有 15 个不同的作业名和作业ID，是否最好将其转换为苍蝇使用 SparkSQL 连接到一个非常小的表，只在我的日志中jobname;jobid放入。jobid