厦门大学计算机科学系 2015年版
第四章 分布式数据库HBase
(PPT版本号:2015年6月第版)
《大数据技术原理与应用
》
温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字
提纲
• 概述
• HBase访问接口
• HBase数据模型
• HBase的实现原理
• HBase运行机制
• HBase编程实践
欢迎访问《大数据技术原理与应用》教材官方网站:
本PPT是如下教材的配套讲义:
21世纪高等教育计算机规划教材
《大数据技术原理与应用
——概念、存储、处理、分析与应用》
(2015年6月第1版)
厦门大学 林子雨 编著,人民邮电出版社
ISBN:978-7-115-39287-9
概述
• 从BigTable说起
• HBase简介
• HBase与传统关系数据库的对比分析
从BigTable说起
•BigTable是一个分布式存储系统
•利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据
•使用谷歌分布式文件系统GFS作为底层数据存储
•采用Chubby提供协同服务管理
•可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、
高性能和高可用性等特点
•谷歌的许多项目都存储在BigTable中,包括搜索、地图、财经、打印、
社交网站Orkut、视频共享网站YouTube和博客网站Blogger等
HBase简介
HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的
开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常
庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和
数百万列元素组成的数据表
图4-1 Hadoop生态系统中HBase与其他部分的关系
HBase简介
表4-1 HBase和BigTable的底层技术对应关系
BigTable
HBase
文件存储系统 GFS HDFS
海量数据处理 MapReduce Hadoop
MapReduce
协同服务管理 Chubby Zookeeper
HBase与传统关系数据库的对比分
析
• HBase与传统的关系数据库的区别主要体现在以下几个方面:
• (1)数据类型:关系数据库采用关系模型,具有丰富的数据类型和
存储方式,HBase则采用了更加简单的数据模型,它把数据存储为未
经解释的字符串
• (2)数据操作:关系数据库中包含了丰富的操作,其中会涉及复杂
的多表连接。HBase操作则不存在复杂的表与表之间的关系,只有简
单的插入、查询、删除、清空等,因为HBase在设计上就避免了复杂
的表和表之间的关系
• (3)存储模式:关系数据库是基于行模式存储的。HBase是基于列
存储的,每个列族都由几个文件保存,不同列族的文件是分离的
HBase与传统关系数据库的对比分
析
• HBase与传统的关系数据库的区别主要体现在以下几个方面:
• (4)数据索引:关系数据库通常可以针对不同列构建复杂的多个索
引,以提高数据访问性能。HBase只有一个索引——行键,通过巧妙
的设计,HBase中的所有访问方法,或者通过行键访问,或者通过行
键扫描,从而使得整个系统不会慢下来
• (5)数据维护:在关系数据库中,更新操作会用最新的当前值去替
换记录中原来的旧值,旧值被覆盖后就不会存在。而在HBase中执行
更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧
有的版本仍然保留
• (6)可伸缩性:关系数据库很难实现横向扩展,纵向扩展的空间也
比较有限。相反,HBase和BigTable这些分布式数据库就是为了实现
灵活的水平扩展而开发的,能够轻易地通过在集群中增加或者减少硬
件数量来实现性能的伸缩
HBase访问接口
表4-2 HBase访问接口
类型 特点 场合
Native Java API 最常规和高效的访问方式 适合Hadoop MapReduce作业
并行批处理HBase表数据
HBase Shell HBase的命令行工具,最
简单的接口
适合HBase管理使用
Thrift Gateway 利用Thrift序列化技术,
支持C++、PHP、Python
等多种语言
适合其他异构系统在线访问
HBase表数据
REST Gateway 解除了语言限制 支持REST风格的Http API访问
HBase
Pig 使用Pig Latin流式编程语
言来处理HBase中的数据
适合做数据统计
Hive 简单 当需要以类似SQL语言方式来
访问HBase的时候
HBase数据模型
• 数据模型概述
• 数据模型相关概念
• 数据坐标
• 概念视图
• 物理视图
• 面向列的存储
数据模型概述
• HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、
列族、列限定符和时间戳
• 每个值是一个未经解释的字符串,没有数据类型
• 用户在表中存储数据,每一行都有一个可排序的行键和任意多的列
• 表在水平方向由一个或者多个列族组成,一个列族中可以包含任意多
个列,同一个列族里面的数据存储在一起
• 列族支持动态扩展,可以很轻松地添加一个列族或列,无需预先定义
列的数量以及类型,所有列均以字符串形式存储,用户需要自行进行
数据类型转换
• HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个
新的版本,旧有的版本仍然保留
数据模型相关概念
• 表:HBase采用表来组织数据,表由行和列组成,列划分为若干个列
族
• 行:每个HBase表都由若干行组成,每个行由行键(row key)来标
识。访问表中的行只有三种方式:(1)通过单个行键访问;(2)通
过一个行键的区间来访问;(3)全表扫描
• 列族:一个HBase表被分组成许多“列族”的集合,它是基本的访问
控制单元
• 列限定符:列族里的数据通过列限定符(或列)来定位
• 单元格:在HBase表中,通过行、列族和列限定符确定一个“单元格
”(cell),单元格中存储的数据没有数据类型,总被视为字节数组byte
[]
• 时间戳:每个单元格都保存着同一份数据的多个版本,这些版本采用
时间戳进行索引
数据模型相关概念
图4-2 HBase数据模型的一个实例
数据坐标
• HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格,因此,
可以视为一个“四维坐标”,即[行键, 列族, 列限定符, 时间戳]
键 值
[“201505003”, “Info”, “email”, 1174184619081] “xie@”
[“201505003”, “Info”, “email”, 1174184620720] “you@”
概念视图
表4-4 HBase数据的概念视图
物理视图
表4-5 HBase数据的物理视图
列族contents
列族anchor
面向列的存储
图4-3 行式数据库和列式数据库示意图
面向列的存储
图4-4 行式存储结构和列式存储结构
HBase的实现原理
• HBase功能组件
• 表和Region
• Region的定位
HBase功能组件
• HBase的实现包括三个主要的功能组件:
–(1)库函数:链接到每个客户端
–(2)一个Master主服务器
–(3)许多个Region服务器
• Region服务器负责存储和维护分配给自己的Region,处理来自客户端
的读写请求
• 主服务器Master负责管理和维护HBase表的分区信息
• 客户端并不是直接从Master主服务器上读取数据,而是在获得Region
的存储位置信息后,直接从Region服务器上读取数据
表和Region
图4-5一个HBase表被划分成多个Region
图4-6 一个Region会分裂成多个新的Region
表和Region
图4-7 不同的Region可以分布在不同的Region服务器上
Region的定位
图4-8 HBase的三层结构
Region的定位
表4-6 HBase的三层结构中各层次的名称和作用
层次 名称 作用
第一层 Zookeeper文
件
记录了-ROOT-表的位置信息
第二层 -ROOT-表 记录了.META.表的Region位置信息
-ROOT-表只能有一个Region。通过-ROOT-
表,就可以访问.META.表中的数据
第三层 .META.表 记录了用户数据表的Region位置信息,
.META.表可以有多个Region,保存了HBase
中所有用户数据表的Region位置信息
HBase运行机制
• HBase系统架构
• Region服务器工作原理
• Store工作原理
• HLog工作原理
HBase系统架构
图4-9 HBase的系统架构
HBase系统架构
• 1. 客户端
–客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的
Region位置信息,用来加快后续数据访问过程
• 2. Zookeeper服务器
– Zookeeper可以帮助选举出一个Master作为集群的总管,并保证在任何时
刻总有唯一一个Master在运行,这就避免了Master的“单点失效”问题
• 3. Master
• 主服务器Master主要负责表和Region的管理工作:
– 管理用户对表的增加、删除、修改、查询等操作
– 实现不同Region服务器之间的负载均衡
– 在Region分裂或合并后,负责重新调整Region的分布
– 对发生故障失效的Region服务器上的Region进行迁移
• 4. Region服务器
– Region服务器是HBase中最核心的模块,负责维护分配给自己的
Region,并响应用户的读写请求
Region服务器工作原理
图4-10 Region服务器向HDFS文件系统中读写数据
1. 用户读写数据过程
2. 缓存的刷新
3. StoreFile的合并
Store工作原理
图4-11 StoreFile的合并和分裂过程
HLog工作原理
• HBase系统为每个Region服务器配置了一个HLog文件,它是一种预
写式日志(Write Ahead Log)
• Zookeeper会实时监测每个Region服务器的状态,当某个Region服务
器发生故障时,Zookeeper会通知Master
• Master首先会处理该故障Region服务器上面遗留的HLog文件,这个
遗留的HLog文件中包含了来自多个Region对象的日志记录
• 系统会根据每条日志记录所属的Region对象对HLog数据进行拆分,
分别放到相应Region对象的目录下,然后,再将失效的Region重新
分配到可用的Region服务器中,并把与该Region对象相关的HLog日
志记录也发送给相应的Region服务器
• Region服务器领取到分配给自己的Region对象以及与之相关的HLog
日志记录以后,会重新做一遍日志记录中的各种操作,把日志记录中
的数据写入到MemStore缓存中,然后,刷新到磁盘的StoreFile文件
中,完成数据恢复
• 共用日志优点:提高对表的写操作性能;缺点:恢复时需要分拆日志
HBase编程实践
本节主要介绍Linux中关于HBase数据库的常用Shell命令,以及
数据处理常用的Java API
HBase常用Shell命令
HBase常用Java API及应用实例
HBase常用Shell命令
create:创建表
list:列出HBase中所有的表信息
HBase常用Shell命令
put:向表、行、列指定的单元格添加数据
scan:浏览表的相关信息
HBase常用Shell命令
get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值
HBase常用Shell命令
enable/disable:使表有效或无效
drop:删除表
HBase常用Java API及应用实例
Hbase常用Java API
(1)
该类用于管理HBase数据库的表信息,包括创建或删除表、列出表项、使表
有效或无效、添加或删除表的列族成员、检查HBase的运行状态等
(2)
该类用于管理HBase的配置信息
(3)
用于与HBase进行通信。如果多个线程对一个HTable对象进行put或者delete
操作的话,则写缓冲器可能会崩溃
HBase常用Java API及应用实例
(4)
HTableDescriptor包含了HBase中表格的详细信息,例如表中的列族、该表
的类型(-ROOT-,.META.)、该表是否只读、MemStore的最大空间、
Region什么时候应该分裂等等
(5)
HColumnDescriptor包含了列族的详细信息,例如列族的版本号、压缩设置等。
HColumnDescriptor通常在添加列族或者创建表的时候使用。列族一旦建立就
不能被修改,只能通过删除列族,然后再创建新的列族来间接的修改列族。
一旦列族被删除了,该列族包含的数据也随之被删除
HBase常用Java API及应用实例
(6)
用来对单元格执行添加数据操作
(7)
用来获取单行的信息
(8)
用于存放Get或Scan操作后的查询结果,并以<key,value>的格式存储在
map结构中。该类不是线程安全的
(9)
客户端获取值的接口
本章小结
• 本章详细介绍了HBase数据库的知识。HBase数据库是BigTable的开源实现,
和BigTable一样,支持大规模海量数据,分布式并发数据处理效率极高,易
于扩展且支持动态伸缩,适用于廉价设备
• HBase可以支持Native Java API、HBase Shell、Thrift Gateway、REST
Gateway、Pig、Hive等多种访问接口,可以根据具体应用场合选择相应访问
方式
• HBase实际上就是一个稀疏、多维、持久化存储的映射表,它采用行键、列
键和时间戳进行索引,每个值都是未经解释的字符串。本章介绍了HBase数
据在概念视图和物理视图中的差别
• HBase采用分区存储,一个大的表会被分拆许多个Region,这些Region会被
分发到不同的服务器上实现分布式存储
• HBase的系统架构包括客户端、Zookeeper服务器、Master主服务器、
Region服务器。客户端包含访问HBase的接口;Zookeeper服务器负责提供
稳定可靠的协同服务;Master主服务器主要负责表和Region的管理工作;
Region服务器负责维护分配给自己的Region,并响应用户的读写请求
• 本章最后详细介绍了HBase运行机制和编程实践的知识
主讲教师和助教
主讲教师:林子雨
单位:厦门大学计算机科学系数据库实验室2013级硕士研究生(导师:林子雨)
E-mail: caiminxing@
助教:蔡珉星
欢迎访问《大数据技术原理与应用——概念、存储、处理、分析与应用》
教材官方网站:
Department of Computer Science, Xiamen University, June, 2015
演讲完毕,谢谢观看!