分布

最近更新时间: 2019-10-25 08:04:45

  • 为所有表定义分布策略:要么定义分布键,要么使用随机分布,不要使用缺省分布方式。
  • 优先选择可均匀分布数据的单个字段做分布键。
  • 不要选择经常用于 WHERE 子句的字段做分布键。
  • 不要使用日期或时间字段做分布键。
  • 分布键和分区键不要使用同一字段。
  • 对经常执行 JOIN 操作的大表,优先考虑使用关联字段做分布键,尽量做到本地关联,以提高性能。
  • 数据初始加载后或者每次增量加载后,检查数据分布是否均匀。
  • 尽可能避免数据倾斜