[大数据][HBase]HBase(理论)

Author：唐宋丶
发布时间：March 17, 2020
2282 views
No comments
2595 words
Categories：大数据体系

## 简介

HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。

• HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和**时间戳**
• 每个值是一个未经解释的字符串，没有数据类型
• 用户在表中存储数据，每一行都有一个可排序的行键（**字典排序**）和任意多的列
• 表在水平方向由一个或者多个列族组成，一个列族中可以包含任意多个列，同一个列族里面的数据存储在一起，不同列族分开存放，解决宽度问题
• 列族支持动态扩展，可以很轻松地添加一个列族或列，无需预先定义列的数量以及类型，所有列均以字符串形式存储，用户需要自行进行数据类型转换
• HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍然保留（这是和HDFS只允许追加不允许修改的特性相关的），这就是处理看似快速的原因，操作时实际上并没有删除原来的数据，只是增加了Type类型为delete的数据，如果时间戳大于Type=put则不返回
![HBase的逻辑结构](https://s1.ax1x.com/2020/03/17/8UYVjH.png)

**HBase和BigTable的底层技术对应关系**

| 底层技术 | BigTable | HBase |
| ------------ | --------- | ------------------- |
| 文件存储系统 | GFS | HDFS |
| 海量数据处理 | MapReduce | Hadoop MapReduce |
| 协同服务管理 | Chubby | Zookeeper |

> 问：关系数据库已经流行很多年，并且Hadoop已经有了HDFS和MapReduce，为什么需要HBase?

* Hadoop可以很好地解决大规模数据的离线批量处理问题，但是，受限于Hadoop MapReduce编程框架的高延迟数据处理机制，使得Hadoop无法满足大规模数据实时处理应用的需求
* HDFS面向批量访问模式，不是随机访问模式
* 传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题（分库分表也不能很好解决）
* 传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间
* 因此，业界出现了一类面向半结构化数据存储和处理的高可扩展、低写入/查询延迟的系统，例如，键值数据库、文档数据库和列族数据库（如BigTable和HBase等）
* HBase已经成功应用于互联网服务领域和传统行业的众多在线式数据分析处理系统中

> 问：HBase与传统的关系数据库的区别主要体现在哪里？
> （1）**数据类型**：关系数据库采用关系模型，具有丰富的数据类型和存储方式，HBase则采用了更加简单的数据模型，它把数据存储为未经解释的字符串
> （2）**数据操作**：关系数据库中包含了丰富的操作，其中会涉及复杂的多表连接。HBase操作则不存在复杂的表与表之间的关系，只有简单的插入、查询、删除、清空等，因为HBase在设计上就避免了复杂的表和表之间的关系
> （3）**存储模式**：关系数据库是基于行模式存储的（每个属性逗号隔开）。HBase是基于列存储的（如下图），每个列族都由几个文件保存，不同列族的文件是分离的
> （4）**数据索引**：关系数据库通常可以针对不同列构建复杂的多个索引，以提高数据访问性能。HBase只有一个索引——行键，通过巧妙的设计，HBase中的所有访问方法，或者通过行键访问，或者通过行键扫描，从而使得整个系统不会慢下来
> （5）**数据维护**：在关系数据库中，更新操作会用最新的当前值去替换记录中原来的旧值，旧值被覆盖后就不会存在。而在HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍然保留
> （6）**可伸缩性**：关系数据库很难实现横向扩展，纵向扩展的空间也比较有限。相反，HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的，能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩
> ![逻辑存储+物理存储](https://s1.ax1x.com/2020/03/17/8U84PS.png)

## 系统架构

![不完整版](https://s1.ax1x.com/2020/03/17/8Uodds.png)
![完整版](https://s1.ax1x.com/2020/03/17/8UoOwd.png)

* 客户端
 客户端包含访问HBase的接口，同时在缓存中维护着已经访问过的Region位置信息，用来加快后续数据访问过程
* Zookeeper服务器
 Zookeeper可以帮助选举出一个Master作为集群的总管，并保证在任何时刻总有唯一一个Master在运行，这就避免了Master的“单点失效”问题 （Zookeeper是一个很好的集群管理工具，被大量用于分布式计算，提供配置维护、域名服务、分布式同步、组服务等。）
* Master
 主服务器Master主要负责表和Region的管理工作： – 管理用户对表的增加、删除、修改、查询等操作 – 实现不同Region服务器之间的负载均衡 – 在Region分裂或合并后，负责重新调整Region的分布 – 对发生故障失效的Region服务器上的Region进行迁移
* Region服务器
 Region服务器是HBase中最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求
 ![ HBase的三层结构和作用](https://s1.ax1x.com/2020/03/17/8U7XGt.png)

Last modification：August 11, 2022

喵ฅฅ

[大数据][HBase]HBase(理论)

唐宋丶 • 2020 年 03 月 17 日

## 简介

**HBase和BigTable的底层技术对应关系**

> 问：关系数据库已经流行很多年，并且Hadoop已经有了HDFS和MapReduce，为什么需要HBase?

## 系统架构

![不完整版](https://s1.ax1x.com/2020/03/17/8Uodds.png)
![完整版](https://s1.ax1x.com/2020/03/17/8UoOwd.png)

Leave a Comment Cancel reply

[大数据][HBase]HBase(理论)