hive数据倾斜的解决方案

JerryHouse | hadoop, hive, 数据分析 | 2014-08-03
分布式文件系统HDFS可以存储海量的数据(以T为单位的数据量),分布式计算框架MapReduce可以对存储在HDFS的数据进行处理后再将结果写回到HDFS。MapReduce + HDFS可以完成对海量数据的批量处理,但是这套组合会导致很多重复性的工作,有些处理起来比较繁琐,例如从文件中选取特定行数的数据,按照某些字段对数据进行排序,统计某些字段出现的字数,将多... [阅读全文]
Ɣ回顶部