C store底层存储设计

C-Store底层存储设计

梁智超

liangzhichao@chinamobile.com

C-Store设计思想

• 在只读的数据仓库应用中，支持更新事务也是很有必要的！

• 在实时的数据仓库应用中，将新灌入数据的可见性延迟压得越低越好！

• 但基于读优化的数据结构，很难再提供高效的更新性能！

• C-Store将两个针对读和写分别优化的存储模块集成到一起来解决读写两难的困境！

C-Store数据模型

• 逻辑上：数据库（Database）由表（Table）组成，表由属性列（Column）组成，支持唯一主键和外键，使用标准SQL查询。

• 物理上：C-Store只实现投影（Projection），每

个投影与一张表关联，包含了该表中的一个或多个属性列以及其任意数目其它表中的属性列。

Name Age Dept Salary

Bob 25 Math 10K

Bill 27 EECS 50K

Jill 24 Biology 80K

Name Floor

Biology 10

Math 8

EECS 19

C-Store数据模型(cont.)

EMP1(name, age | age)

Name Age

Jill 24

Bob 25

Bill 27

EMP2(dept, age, DEPT.floor | DEPT.floor)

Dept Age DEPT.floor

Math 25 8

Biology 24 10

EECS 27 19

EMP3(name, salary | salary)

Name Salary

Bob 10K

Bill 50K

Jill 80K

DEPT1(name, floor | floor)

Name Floor

Math 8

Biology 10

EECS 19

Name Age Dept Salary

Bob 25 Math 10K

Bill 27 EECS 50K

Jill 24 Biology 80K

Name Floor

Biology 10

Math 8

EECS 19

SK Age

SK Name

1 Jill

1 Bill

C-Store数据模型(cont.)

• 投影以列存的方式存储，即投影中有几个属性列，就有几个存储列的数据结构。

• 投影通过基于排序属性值的水平分区切割成段（Segment），每个段都会有一个标识。

• 段中的每个属性列的值都会关联一个存储主键。

EMP1(name, age | age)

Name Age

Jill 24

Bob 25

Bill 27

SID = 1

SID = 2

段中具有相同存储主键的属性列构成一条逻辑上的记录！

C-Store存储设计

• 读写分离，最新的更新数据全部写到Writeable Store (WS)，只读数据存储在Read-Optimized Store (RS)。

• 查询时需要将RS和WS中的数据合并处理。

Writeable Store

Read-Optimized Store

Tuple Mover

1) WS和RS均采用列存储，分享相同的物理设计，包括投影、段等；

2) WS中的段与RS中的段一一对应； 3) WS中SK是显示存储的，RS中SK根

据列属性值的存储位置计算得到； 4) WS中的数据通过Tuple Mover实现

与RS中数据的Merge；

RS中数据存储和压缩

• RS中存储大部分数据，且将数据库表转化为多个投影会导致数据膨胀，所以RS中的数据需要进行压缩。

• RS中的数据压缩就是对投影中每个列的压缩，包括四种不同情况：

压缩列就是投影中的排序列，且压缩列中的distinct值很少

压缩列不是投影中的排序列，且压缩列中的distinct值很少

压缩列就是投影中的排序列，且压缩列中的distinct值很多

压缩列不是投影中的排序列，且压缩列中的distinct值很多

RS中数据存储和压缩(cont.)

• 压缩列就是投影中的排序列，且压缩列中的distinct值很少。

Salary

(8000, 3, 4)

(3000, 0, 3)

使用Run-Length Encoding将连续的列属性值转

化为三元组（列属性值，在列中第一次出现的位置，出现次数）

整个列就可以使用多个三元组来表示

所有三元组使用B树索引来管理，B树

索引中所有节点不留空闲空间，使用大数据块来存节点以降低B树的层数

• 压缩列不是投影中的排序列，且压缩列中的distinct值很少。

Salary

列属性值转化为二元组（列属性值，该列属性值出现在列中位置的Bitmap）

(8000, 1001101) (3000, 0110010)

因为distinct值很少，所以每个二元组中的Bitmap都很稀疏，可以继续使用Run-Length Encoding对Bitmap进行压缩

构造B树将列中的每个位置映射给该位置上的列属性值，以快速定位列中每个位置上的列属性值

• 压缩列就是投影中的排序列，且压缩列中的distinct值很多。

Salary

将列属性值表示成为前一个列属性值的增量 Salary

使用面向块的压缩算法对转换后的数据进行压缩，类似于IBM的VSAM对B树索引主键的编码

使用B树索引管理块级的压缩对象， B树索引中所有节点不留空闲空间

• 压缩列不是投影中的排序列，且压缩列中的distinct值很多。

Salary

可以选择不压缩数据

直接使用B树索引管理数据，B树

索引中所有节点不留空闲空间，使用大数据块来存节点以降低B树的层数

WS中数据存储

• WS中的数据比RS中的数据少很多，所以不进行数据压缩。

• 投影中每列的更新数据都使用二元组（列属性值，SK）来表示，且针对SK建B树索引。

• 投影中的排序属性列使用附加的二元组（排序属性值，该排序属性值第一次出现的SK）来表示，且针对排序属性值建B树索引。

• 先查询排序属性列二元组的B树索引，再查询其他列二元组的B树索引。

WS中数据存储(cont.)

Name列更新数据的二元组

Jill 1

Rose 3

Bill 5

EMP1(name, age | age)的更新数据

SK Name Age

1 Jill 24

2 Tom 24

3 Rose 25

4 Bob 25

5 Bill 27

排序属性列的附加二元组

(针对SK建 B树索引)

(针对排序属性建B树索引)

当使用排序属性进行查询时，先查询排序属性列二元组的B树索引，获取符合条件的SK，再查询其他列二元组的B树索引获取对应的属性列值

C-Store直接使用BerkeleyDB来管理WS！

C store底层存储设计

Technology

2013 年度棉花收储政策及收储流程

对象存储 - community.qingcloud.com · 基于X86 架构精心设计的海量存储解决方案可节省大量初始采购成本，结合存储分层、对象生命周期管理等功能进一步

第2 Hadoop 入门 - Baiduimages.china-pub.com/ebook8045001-8050000/8049589/ch02.pdf · 第2章 Hadoop入门 25 HBase ：一个分布式的、面向列的数据库。使用 HDFS 作为底层存储，同时支持使

生产与仓储循环内部控制了解和测试工作底稿讲解主讲人：房芳

物联网底层数据采集技术及标准化‰©联网底层数据采集... · 2010. 7. 16. · –ISO/IEC 15420 EAN/UPC –ISO/IEC 16388 Code 39 –ISO/IEC 16390 Interleaved 2

武汉市教育局云计算方案研讨 - Cisco · 界面层云翼300 ... 1、每个学校都有自己的数据中心，服务器、存储交换机、存储、备份软件、备份设备等

NEW PRODUCTS - HC28...框架结构：框架为实木与多层板结构，金属底架 / 饰面：沙发主体为软包面料或皮，底脚为黑灰色氟碳漆 / 坐垫软包：坐垫为高弹海绵复合，最上层为蓬松棉填充

稠油油藏 SAGD 微压裂阶段储层压缩系数研究——以新疆风城陆相 …

数据中心级分布式存储平台AS13000G5 - Inspur · 分布式扩展架构、四种存储协议服务层数据层硬件层分布式文件 2U12 2U25 4U36 4U72 Rack 分布式块

煤层气产业发展与商业银行对策 - CCBccb.com/cn/public/20130322_1363936131/... · 煤层气以管道输送为主，采取就近利用，余气外输的原则。目前煤层气中游运输、存储等环节的条件已经基本具备。

GF-L008...底1.76 天1.0 天13.935 底13.280 底1680 FH13.850 底13285 天13.650 底 5 底13.171 底1 2.745 底12.74 天13 6 283 90 底12.894 12.896 天3.64 FH13.70 FH3.70 底12.5

6.1 存储系统的基本概念 6.2 半导体存储器 6.3 高速缓冲存储器（ Cache ） 6.4 微机的外部存储器

获取教材和讲义 PPT · 愿意使用HBase）。因此，Google 才设计了可扩展数据库F1，支持关系模型，而Spanner 就是F1 的至关重要的底层存储技术。

第五章存储层次

第五章存储器及存储管理

第章存储系统 - ansafe.xust.edu.cn · 第章存储系统 3.2.1 sram 1. 基本存储元基本存储元是组成存储器的基础和核心，它用来存储一位二进制信息0或1。

第四章存储器和存储系统

ESP32 Bluetooth Architecture CN - Espressif Systems...蓝低功耗的部分规范或偏底层的功能，如 6LowPan 或 Dynamic L2CAP Channel 的功能，将运在 BTU 层，再通过

第 6 章层次结构存储系统存储器概述主存与 CPU 的连接及其读写操作磁盘存储器高速缓冲存储器 (cache) 虚拟存储器 IA-32/Linux 中的地址转换

主要内容存储器分类与组成随机存取存储器 (RAM) 只读存储器 (ROM) 存储器的连接