如何有效地对数据进行分区?

数据挖掘 数据工程
2022-02-24 21:29:19

我有一个将模型分数输出到 s3 的管道。我需要按model_typedate对数据进行分区。这是从以下分区数据的最有效方法:

  1. s3://bucket/data/model_type=foo/dt=YYYY-MM-DD/a.csv
  2. s3://bucket/data/dt=YYYY-MM-DD/model_type=foo/a.csv
1个回答

在对数据进行分区时,我们需要了解太多的分区不是一个好的做法,仅分区的模型类型可能会导致太少。因此,在您决定最佳分区之前,请考虑以下几点:

  1. 您将如何访问数据。哪些访问模式更频繁。如果您先使用模型,然后再使用日期,则可能会先使用。
  2. 如果它的日期去第二个。
  3. 此外,您可以创建双周分区,而不是每天创建分区,这将为您提供两全其美的分区