了解MapReduce思想
MapReduce是一个分布式的并行处理框架
mapreduce的思想核心是“先分再和,分而治之”
所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,然后把各部分的结果组成整个问题的最终结果。
这种思想来源于日常生活与工作时的经验。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。
Map表示第一阶段,负责“拆分”:即把复杂的任务分解为若干个“简单的子任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。
Reduce表示第二阶段,负责“合并”:即对map阶段的结果进行全汇总。
这两个阶段合起来正是MapReduce思想的体现。
大数据处理场景
对于相互之间不具有计算依赖关系的大数据任务,实现并行最自然的办法就是采取MapReduce分而治之。
首先Map阶段进行拆分,把大数据拆分成为若干份小数据,多个程序同时并行计算产生中间结果;然后Reduce聚合阶段,通过程序对并行的结果进行最终的汇总计算,得到最终的结果。
不可拆分的计算任务或相互之间由依赖关系的数据无法进行并行计算
MapReduce构建编程模型
MapReduce借鉴了函数式语言中的思想,用Map和Reduce两个函数提供了高层的并行编程抽象模型
map:对一组数据元素进行某种重复式的处理;
reduce:对Map的中间结果进行某种进一步的结果整理
MapReduce输入输出格式
MapReduce中定义了如下的Map和Reduce两个抽象的编程接口,由用户去编程实现:
map:(k1; v1) ---> (k2: v2)
reduce: (k2;[v2]) ---> (k3;v3)
通过以上两个编程接口,可以看出MapReduce处理的数据类型是<key,value>键值对的形式。
统一架构、隐藏底层细节
如何提供统一的计算框架、如果没有统一封装底层细节,那么程序员需要考虑多种问题,如数据的存储、划分、分发、结果、收集,错误恢复等诸多细节;为此,MapReduce设计并提供了一套完整且极具实时性的计算框架,为程序员以及数据分析人员减少了很大一部分系统层面的细节处理
mapreduce最大的亮点在于通过抽象模型和计算框架把需要做什么、具体做什么分开了,为程序员提供了一个抽象和高层的编程接口和框架。
程序眼仅需要关系i应用层的具体计算问题,仅需编写少量的处理应用本身计算问题的业务程序编码。
至于如何具体完成这个并行计算任务相关的诸多系统层细节被隐藏起来,交给计算框架去处理:从分布代码的执行,从大到小以及单个集群节点的自动调度使用
MapReduce特点
易于编程
MapReduce框架提供了用于二次开发的接口;简单的实现一些接口,就可以完成一个分布式程序。任务计算交给计算框架去处理,将分布式程序部署在hadoop集群运行,集群节点可以扩展到成百上千个。
扩展性
当计算机资源不能得到满足的时候,可以通过增加及其来扩展它的计算能力。基于MapReduce的分布式计算特点可以随节点数目增长保持近似于线性的增长,这个特点式MapReduce处理海量数据的关键,通过将计算节点增至几百上千可以很容易的处理百TB甚至PB级别的离线数据
高容错性
Hadoop集群式分布式搭建和部署的,任何单一机器节点宕机了,它可以把上面的计算任务转移到另一个节点上运行,不影响整个任务作业任务的完成,过程完全是由Hadoop内部完成的
适合海量数据的离线处理
可以轻松处理GB、TB级别的数据量
MapReduce局限性
MapReduce虽然有很多的优势,也有相对的局限性,局限性不代表不能做,二是在有些场景下实现的效果比较差,并不适合用MapReduce来处理,主要变现在以下结果方面:
实时计算性能差
MapReduce主要应用于离线作业,无法做到秒级或者亚秒级的数据响应
不能进行流式处理
流式计算特点式数据式远远不断的计算,并且数据是动态的;而MapReduce作为一个离线计算框架,主要是针对静态数据集的,数据是不能动态变化的
MapReduce实例进程
MRAppMaster:负责整个MR进程的过程调度以及状态协调
MapTask:负责map阶段的整个数据处理流程
ReduceTask:负责reduce阶段的整个数据流处理流程
阶段组成
一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段,或者只有Map阶段;
不能有诸如多个map阶段、多个reduce阶段的情景出现;
如果用户的业务逻辑非常复杂那就只能多个Mapreduce程序串行运行
MapReduce数据类型
注意:整个MapReduce程序中,数据都是以key、value键值对的形式流转的
在实际编程解决各种业务问题中,需要考虑每个阶段的输入输出
MapReduce内置了很多默认属性,比如排序、分组等,都和数据的k有关,所以说kv的数据类型定义及其重要。
Hadoop MapReduce官方实例
示例程序路径:/export/server/hadoop-3.3.0/share/hadoop/mapreduce/
示例程序:hadoop-mapreduce-examples-3.3.0.jar
MapReduce程序提交命令:[
提交到哪里去?提交到YARN集群上分布式执行。
案例:评估圆周率Π(Pi)的值
圆周率π大家都不陌生,如何去估算π的值呢?
Hadoop MapReduce示例提供了Monte Carlo方法计算圆周率。
运行MapReduce程序评估一下圆周率的值,执行中可以去YARN页面上观察程序的执行的情况。
第一个参数:pi表示MapReduce程序执行圆周率计算任务;
第二个参数:用于指定map阶段运行的任务task次数,并发度,这里是10;
第三个参数:用于指定每个map任务取样的个数,这里是50。
hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 10 50
案例:单词统计
wordcount实现思路
map阶段核心:把输入的数据经过切割,全部标记1,因此输出就是<单词,1>
shufile阶段核心:经过MR程序内部自带默认的排序分组功能,把key相同的单词会作为一组数据构成新的kv对。
reduce阶段核心:当shuffle处理完成一组数据,该数据就是该单词所有的键值对。之后对所有的1进行累加求和,就是单词的总出现次数
统计单词数,首先要创建上传目录,并且上传到hadoop当中
hadoop -mkdir /input 创建上传目录
hadoop -put 1.txt /input 上传文件到目录当中
统计单词并输出到不存在的输出目录,(注意输出目录不能存在,否则会报错)
hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /input /output
验证是否成功
处理成功,验证是否正确
元数据
处理后数据
成功
Map阶段执行流程
第一阶段:将输入数据按照一定规则比例逐个进行逻辑分片,实现切片规则
默认切片大小=存储块大小(128M),每个切片有一个MapTask进行处理
第二阶段:对切片中的数据按照一定的规则读取解析返回<key,value>对。
默认是按行读取数据。key是每一行的其实位置偏移量,value是本行的文本内容。
第三阶段:调取Mapper类中的map方法处理数据。
每个读取解析出来的一个<key,value>,调用一次map方法
第四阶段:按照一定的规则对Map输出的键值对进行分区partition。默认不分区,因为只有一个reducetask。分区的数量就是reducetask的数量。
第五阶段:Map输出的数据写入内存缓冲区,达到比例溢出到磁盘上。溢出spill的时候根据key进行排序sort。默认根据key字典序排序。
第六阶段:对所有溢出文件进行最终的mergo合并,合并为一个文件
Reduce阶段执行流程
第一阶段:ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据。
第二阶段:把拉取来的数据,全部进行合并merge,即把分散的数据合并成为一个大的数据。再对合并后的数据排序。
第三阶段:对排序后的键值对调用Reduce方法。键相等的键值对调用一次Reduce方法。最后把这些输出的键值对写入到HDFS文件中。
shuffle机制
shuffle概念
shuffle的本意是洗牌,把一组有规则的数据尽可能打乱成无序的数据。
而在MapReduce当中,shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一规则的数据,一边reduce端接收处理
一般把从Map产生输出开始到Reduce取得数据作为输入之前的过程成为shuffle
Map端的shuffle
Collect阶段:将maptask的记过收集输出到默认大小为100M的环形缓冲区,保存之前会对key进行计算,默认Hash分区。
Spill极端:当内存中的数据量到达一定的阈值的时候,就会将数据写入本地磁盘,在数据写入磁盘之前需要对数据进行一次排序的操作,如果配置了combiner,还会将有相同分区号和key的数据进行排序。
Merge阶段:把所有溢出的临时文件进行一次合并操作,以确保一个MapTask最终只产生一个中间数据文件
Reducer端shuffle
copy阶段:ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据
Merge阶段:再ReduceTask远程复制数据的同时,会在后台开启两个线程对内存到本地的数据文件进行合并操作。
Sort阶段:再对数据进行合并的同时,会进行排序操作,由于MapTask阶段已经对数据进行了局部的排序,ReduceTask只需保证Copy的数据的最终整体有效即可
shuffle机制弊端
shuffle是MapReduce程序的核心与精髓,是MapReduce的灵魂所在。
shuffle也是MapReduce被诟病最多的地方所在。MapReduce相比较于Spark、Flink计算引擎慢的原因,跟shuffle机制有很多关系。
shuffle中频繁设计到数据在内存、磁盘之间的多次往返。