一、Hadoop
 1、Hadoop大数据框架,处理分布式环境下数据存储和计算
 2、Hadoop的HDFS处理存储
 3、Hadoop的MapReduce处理计算
 map让任务数据拆分到每一台去执行
 reduce处理后的任务合并
 4、Hive作用是在Hadoop上能够让用户来写SQL处理数据
 Hive的执行引擎,会把SQL语句翻译成一个MapReduce的任务去执行
二、Spark
 1、Spark本身也是一个计算框架,它和Hadoop的MapReduce对比(相当于MapReduce升级版)。不同点是Spark是一个基于内存的计算,MapReduce是基于磁盘的计算,Spark速度会比Hadoop快2-3倍
 2、Spark也有Spark SQL的这个模块,让用户在Spark的API上面去写SQL
三、Hadoop的HDFS
 1、Hadoop的分布式文件存储系统
 2、数据分布在许多计算机中以块的形式存储,但是用户看起来就是一块磁盘
四、Hadoop的MapReduce
 MapReduce将数据分成多个部分,并在不同的数据节点上分别处理每个部分,然后将各个结果汇总并输出
五、Hadoop的Yarn
 1、资源管理器:分配资源
 2、节点管理器:处理节点并监控节点中的资源使用情况
 3、应用管理器:管理应用
 4、容器:包含物理资源的集合

5、处理创建的MapReduce任务
 (1)应用管理器从节点管理器请求容器
 (2)节点管理器获得资源后,将它们发送给资源管理器
 (3)这样Yarn在Hadoop中就可以处理任务请求并管理集群资源
六、Hadoop其他管理、处理、分析工具
 Hive、Pig、Spark、Flume、Scoop等等

七、Flink
 用于实时计算,可以与yarn集成
八、Hbase
 用于海量存储



















