Hadoop学习资料

Catalogue
  1. HDFS
    1. hdfs架构图
  2. MapReduce
  3. HBase

hadoop-notebook

  • HDFS
  • MapReduce
  • Yarn

HDFS

hdfs架构图

Hadoop核心之HDFS 架构设计

  • 数据块
  • NameNode
  • DataNode
  • SecondaryNameNode

各自的作用

MapReduce

Mapreduce是一个计算框架。

MapReduce讲的就是分而治之的程序处理理念。

MapReduce的根本原则是信息处理的本地化,哪台PC持有相应要处理的数据,哪台PC就负责处理该部分的数据,这样做的意义在于可以减少网络通讯负担。

学习的demo

Welcome to the Hadoop installed wiki!

以下是相关资料

搭建hadoop-2.6.0-cdh5.4.7伪分布式

apache hadoop-2.6.0-CDH5.4.1 安装:完全分布式

官网:Hadoop分布式文件系统:架构和设计

Yarn 和MapReduce比较

HBase 默认配置

基于CDH5.4.5(ha)的Hbase 3节点搭建

分布式系统概述(Hadoop与HBase的前生今世)

HBase介绍、搭建、环境、安装部署:架构、数据结构、原理

zk的作用及spark

HBase之单机模式与伪分布式模式安装

HBase命令及数据结构//TODO  

HBase

  • HMaster的作用:
    
    为Region server分配region
    负责Region server的负载均衡
    发现失效的Region server并重新分配其上的region
    HDFS上的垃圾文件回收
    处理schema更新请求  
  • HRegionServer作用:
    
    维护master分配给他的region,处理对这些region的io请求
    负责切分正在运行过程中变的过大的region
    可以看到,client访问HBase上的数据并不需要master参与(寻址访问zookeeper和region server,数据读写访问region server),master仅仅维护table和region的元数据信息(table的元数据信息保存在zookeeper上),负载很低。
    HRegionServer存取一个子表时,会创建一个HRegion对象,然后对表的每个列族创建一个Store实例,每个Store都会有一个MemStore和0个或多个StoreFile与之对应,每个StoreFile都会对应一个HFile, HFile就是实际的存储文件。因此,一个HRegion有多少个列族就有多少个Store。
    一个HRegionServer会有多个HRegion和一个HLog。
    Welcome to the Hadoop installed wiki!

以下是相关资料

搭建hadoop-2.6.0-cdh5.4.7伪分布式

apache hadoop-2.6.0-CDH5.4.1 安装:完全分布式

官网:Hadoop分布式文件系统:架构和设计

Yarn 和MapReduce比较

HBase 默认配置

基于CDH5.4.5(ha)的Hbase 3节点搭建

分布式系统概述(Hadoop与HBase的前生今世)

HBase介绍、搭建、环境、安装部署:架构、数据结构、原理

zk的作用及spark

HBase之单机模式与伪分布式模式安装

HBase命令及数据结构//TODO

HBase
HMaster的作用:
为Region server分配region
负责Region server的负载均衡
发现失效的Region server并重新分配其上的region
HDFS上的垃圾文件回收
处理schema更新请求

HRegionServer作用:
维护master分配给他的region,处理对这些region的io请求
负责切分正在运行过程中变的过大的region
可以看到,client访问HBase上的数据并不需要master参与(寻址访问zookeeper和region server,数据读写访问region server),master仅仅维护table和region的元数据信息(table的元数据信息保存在zookeeper上),负载很低。
HRegionServer存取一个子表时,会创建一个HRegion对象,然后对表的每个列族创建一个Store实例,每个Store都会有一个MemStore和0个或多个StoreFile与之对应,每个StoreFile都会对应一个HFile, HFile就是实际的存储文件。因此,一个HRegion有多少个列族就有多少个Store。
一个HRegionServer会有多个HRegion和一个HLog。

已连接data/bigdata/hadoop-learning/resources.md