数据融合实时交互式分析云原生数据仓库nalyticostgre版云原生数据仓库nalytic|火山结构模型_火山地貌

云原生数据仓库AnalyticDB PostgreSQL版提供PB级数据实时交互式分析、ETL/ELT、BI报表展示功能，支持数据高吞吐实时写入与批量导入，提供ACID保证和标准事务隔离级别，采用MPP全并行架构，是一款具有高性价比的云原生数仓产品，提供基于阿里云生态的公共云和混合云服务。

AnalyticDB PostgreSQL版支持JDBC/ODBC连接，支持SQL 2003语法标准，兼容PostgreSQL，Greenplum，和部分Oracle语法，同时提供PL/pgSQL存储过程。另外在SQL基础上，支持Apache MADLib机器学习，PostGIS地理位置分析，以及JSON/JSONB半结构化数据，图片音频等非结构化数据与结构化数据融合分析功能。

在部署形态层面，AnalyticDB PostgreSQL版提供阿里云公共云服务，按量付费，支持垂直升降配和水平扩容，另外支持存储容量独立在线扩容；同时提供阿里云企业版，和敏捷版DBStack混合云部署形态，同时支持X86和ARM平台。

以下为AnalyticDB PostgreSQL版的架构图，主要包含Master Node和Compute Node两大组件，中间通过Interconnect进行互联通信和数据交换传输。

Master Node和Compute Node提供多副本保障服务高可用和数据高可靠，同时均支持通过Scale Out水平扩展来提高集群整体写入查询并发和吞吐。

Master Node

Master Node主要负责客户端连接协议层接入（Access Protocol），认证和鉴权（Authorization & Authentication），SQL解析（Parser），重写（Rewrite），优化（Optimizer），和执行分发协调（Dispatcher）。

另外，Master Node还包含全局事务管理器（Global Transaction Manager），负责全局事务ID、快照生成和分布式事务管理；全局元数据目录（Global Catalog）则记录了用户，库，表，视图，索引，分布分区等数据库对象的元数据信息。

Compute Node

Compute Node包含了一组Segment，部署形态上可以是物理机，VM或者容器。

Segment

Segment是负责具体的SQL执行和数据存储节点。其中本地元数据（Local Catalog，与Master Node Global Catalog保持同步）起到加速执行的功能（Segment无需每次访问Master Node获得元数据信息）；本地事务管理器（Local Transaction Manager）提供本地事务能力；缓存管理器（Buffer Pool）则提供了数据的读写缓存，用于提升读写性能。

执行引擎（Query Executor）通过向量化（Vectorization）和即时编译（JIT）等技术，相比传统逐行计算的火山模型获得数倍性能提升。

数据和索引（Data & Index）支持行存表，列存表，和外表以及相应索引：

行存表：数据按行存放，支持主键，B+树索引，Bitmap索引，GIN索引等，适合数据实时写入更新删除，点查，范围查，通过MVCC提供事务能力。

列存表：数据按列存放，高压缩比，适合追加写（少量更新删除）场景。通过B+树索引支持高效点查，同时在block级别提供min&max轻量级索引，数据可按多列进行多维排序，支持任意排序列的组合过滤，支持高效分析场景。

外表：元数据存放在本地系统表，数据存放在OSS，支持的数据格式包括ORC，Parquet，CSV，JSON，支持表分区，其中ORC和Parquet支持列过滤和谓词下推，提升分析性能。除OSS外，同时也支持Hadoop（HDFS, Hive）外表。

下图展示了客户端从建立连接到执行一条完整SQL整个过程中上述主要模块组件的交互和执行流程。

将表数据均匀的分布到各个节点中，是发挥集群整体IO性能，提升存储容量，优化计算与网络传输效率的关键。除了默认的哈希分布策略，AnalyticDB PostgreSQL版还支持复制分布和随机分布。复制分布是指在每个存储节点上都存放该表的全量数据，通常用于经常被关联查询的小表，在执行相应查询时无需数据广播或重分布环节，提升查询性能。另外也支持随机分布策略，主要场景是当前表字段中无合适字段作为hash分布列（比如会引起各个节点数据倾斜），同时该表也不小（不适合复制策略），随机分布可以让该表数据被均匀摆放到各节点。

在将表数据分布到各个存储节点后，在单个节点上根据业务场景可对表数据进行分区，在执行具体查询时进行分区裁剪，缩小查找和数据处理范围。AnalyticDB PostgreSQL版支持范围和列表分区类型，同时支持多级分区。下图展示了一张用户表显示通过ID列hash分布到3个节点，然后在每个节点上按date列进行范围分区，然后再按city列进行列表分区。图中最右边的每个分区都对应了一份数据存储和索引。这些分区表可以是行存表，也可以是列存表，或者外表。比如业务上完全可以对最近需要写入的分区（Mar）使用行存表，过去已经归档的分区（Feb）使用列存表，出于降低成本考虑，也可以对较少查询的分区（Jan）使用OSS外表。

AnalyticDB PostgreSQL版不仅仅是关系型也是对象-关系型，数据库的对象通常包括：表、视图、函数、序列、索引、分区子表、外部表等，而对象-关系型则进一步支持用户自定义对象和它的属性，包括数据类型、函数、操作符，域和索引，甚至复杂的数据结构也可以被创建，存储和检索。这些对象将按照逻辑划分成不同的集合即组成模式（schema），每当新数据库创建后，都会默认为数据库创建模式public，这也是该数据库的默认模式，并且允许每个用户（角色）进行访问，所有为此数据库创建的对象一般都将默认在这个模式中。

数据库是数据库对象的物理集合，而模式则是数据库内部用于组织管理数据库对象的逻辑集合，模式之下则是各种应用程序会接触到的对象，比如表、索引、数据类型、函数、操作符等。使用模式把数据库对象组织成逻辑组，让它们便于管理，允许多个用户（角色）使用同一个数据库不会互相干扰。

用户（角色）是数据库（集群）全局范围内的权限控制系统，用于各种集群范围内所有的对象权限管理。用户不特定于某个单独的数据库，如果需要登录数据库管理系统则必须连接到一个数据库上，用户可以拥有各种数据库对象。

缺省情况下，用户看不到模式中不属于他们所有的对象，需要对象所有者赋予相应权限。如果已经被赋予适当的权限，用户也可以在别的用户模式里创建对象。请注意，缺省每个用户都在public模式上有创建对象的权限，比如新建一个表并读写数据。

在AnalyticDB PostgreSQL版数据库中，所有对象作为系统元数据将同时被保存在Master服务器和Segment服务器上。

关注阿里云公众号或下载阿里云APP，关注云资讯，随时随地运维管控云服务

THE END

数据融合实时交互式分析云原生数据仓库nalyticostgre版云原生数据仓库nalytic

也能闻出榴莲味，谷歌绘制首个嗅觉图谱，可分辨万种气味化学聚类视觉神经网络

一心二用：高性能端到端语音翻译模型同时识别声音和翻译机器翻译语料源语言

对双位点催化剂上氧氢演化反应的催化活性机理的深入研究

最近研究：发布迄今最详细三叶虫模型化石火山灰

地基之上，打造现代巴别塔翻译英语德语机器翻译语料

第七章数据库设计

数据融合实时交互式分析云原生数据仓库nalyticostgre版云原生数据仓库nalytic