Sku对应品牌进行关联,大表对应非大表(这里的非大表并不能用小表来定义)

问题分析

进行表左关联时,最后一个reduce任务卡到99%,运行时间很长,发生了严重的数据倾斜。

什么是数据倾斜?数据倾斜主要表现在,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。

完整内容请阅读原文:https://blog.csdn.net/Gamer_gyt/article/details/85690885


打开微信扫一扫,关注微信公众号【搜索与推荐Wiki】