镶木地板文件是否被压缩?

数据挖掘 数据 apache-hadoop
2022-02-28 18:53:16

Parquet 文件格式 Hadoop。Parquet,一种用于 Hadoop 的开源文件格式。Parquet 以扁平的列格式存储嵌套的数据结构。与以面向行的方法存储数据的传统方法相比,parquet 在存储和性能方面更有效。

  • 镶木地板文件的优点是什么?

  • 镶木地板文件是否被压缩?

1个回答

是的,它的压缩,阅读更多advanteges:

Parquet是 Hadoop 的一种开源文件格式,它以扁平列格式存储嵌套数据结构。与以面向行的方法存储数据的传统方法相比,parquet 在存储和性能方面更有效。Parquet 以面向列的方式存储二进制数据,其中每列的值都被组织起来,以便它们都是相邻的,从而实现更好的压缩。这对于从“宽”(具有许多列)表中读取特定列的查询特别有用,因为只读取需要的列并且最小化 IO。

当我们处理大数据时,存储此类数据所需的成本更高(Hadoop 存储数据冗余,即每个文件 3 个副本以实现容错)以及处理数据的存储成本伴随着 CPU、网络 IO 等成本。随着数据的增加,处理和存储的成本也会增加。Parquet 是大数据的选择,因为它在存储和处理方面都满足需求、效率和性能。

总结实木复合地板的主要优点:

  • 按列组织可以更好地压缩,因为数据更加同质。在 Hadoop 集群的规模上,空间节省非常明显。
  • I/O 将减少,因为我们可以在读取数据时仅扫描列的子集。更好的压缩还减少了读取输入所需的带宽。
  • 当我们在每一列中存储相同类型的数据时,我们可以通过使指令分支更可预测来使用更适合现代处理器流水线的编码。