千锋教育-做有情怀、有良心、有品质的职业教育机构
MapJoin 会生成两个Task, 首先启动一个任务扫描小表,生成HashTable数据结构文件,然后加载进分布式缓存 DistributeCache 中,第二个 Task 会扫描大... 详情>
Hive作业的运行,资源调度是YARN,数仓存储是HDFS,他们两个都是分布式的集群。 对于Hive你可以简单理解成就是负责将你的SQL转换为MR,当然也提供元数... 详情>
MR在reduce端还会进行一次合并排序,spark则在map端就完成了排序,采用Tim-Sort排序算法。基于以上种种原因,MR自定义分区器时往往还需要自定义分组,... 详情>
因为HBase读时,先去查询写缓存MemStore,如果有则直接返回,如果写缓存MemStore没有时,则会去查询读缓存BlockCache,如果有就直接返回,没有将会读... 详情>