大数据模块

离线计算

Hadoop模块

1.数据存储:HDFS(Hadoop Distributed File System)
2.数据计算:MapReduce(java程序、实现离线计算):在Hadoop 2.X后,Yarn容器中
3.Hive:基于HDFS之上的数据仓库,支持SQL语句
4.HBase:基于HDFS之上的NoSQL数据库
5.ZooKeeper:实现HA(High Availability高可用性、秒杀系统)的功能
6.其他:Sqoop、Flume、Pig

实时计算

1.Redis内存NoSQL数据库
Redis Cluster:分布式解决方案
2.Apache Storm:进行试试计算(流式计算)

Spark:只有数据计算,没有数据的存储(依赖HDFS)

1.Scala变成语言:多范式的编程语言(支持多方式编程:1、面向对象 2、函数式编程)
2.Spark Core:内核,相当于MapReduce;
最重要的概念:RDD(弹性分布式数据集)
3.Spark SQL:类似Hive、支持SQL
4.Spark Streaming:处理流式计算的模块,类似Storm