数据融合实时交互式分析云原生数据仓库nalyticostgre版云原生数据仓库nalytic

云原生数据仓库AnalyticDB PostgreSQL版提供PB级数据实时交互式分析、ETL/ELT、BI报表展示功能,支持数据高吞吐实时写入与批量导入,提供ACID保证和标准事务隔离级别,采用MPP全并行架构,是一款具有高性价比的云原生数仓产品,提供基于阿里云生态的公共云和混合云服务。

AnalyticDB PostgreSQL版支持JDBC/ODBC连接,支持SQL 2003语法标准,兼容PostgreSQL,Greenplum,和部分Oracle语法,同时提供PL/pgSQL存储过程。另外在SQL基础上,支持Apache MADLib机器学习,PostGIS地理位置分析,以及JSON/JSONB半结构化数据,图片音频等非结构化数据与结构化数据融合分析功能。

在部署形态层面,AnalyticDB PostgreSQL版提供阿里云公共云服务,按量付费,支持垂直升降配和水平扩容,另外支持存储容量独立在线扩容;同时提供阿里云企业版,和敏捷版DBStack混合云部署形态,同时支持X86和ARM平台。

以下为AnalyticDB PostgreSQL版的架构图,主要包含Master Node和Compute Node两大组件,中间通过Interconnect进行互联通信和数据交换传输。

Master Node和Compute Node提供多副本保障服务高可用和数据高可靠,同时均支持通过Scale Out水平扩展来提高集群整体写入查询并发和吞吐。

Master Node

Master Node主要负责客户端连接协议层接入(Access Protocol),认证和鉴权(Authorization & Authentication),SQL解析(Parser),重写(Rewrite),优化(Optimizer),和执行分发协调(Dispatcher)。

另外,Master Node还包含全局事务管理器(Global Transaction Manager),负责全局事务ID、快照生成和分布式事务管理;全局元数据目录(Global Catalog)则记录了用户,库,表,视图,索引,分布分区等数据库对象的元数据信息。

Compute Node

Compute Node包含了一组Segment,部署形态上可以是物理机,VM或者容器。

Segment

Segment是负责具体的SQL执行和数据存储节点。其中本地元数据(Local Catalog,与Master Node Global Catalog保持同步)起到加速执行的功能(Segment无需每次访问Master Node获得元数据信息);本地事务管理器(Local Transaction Manager)提供本地事务能力;缓存管理器(Buffer Pool)则提供了数据的读写缓存,用于提升读写性能。

执行引擎(Query Executor)通过向量化(Vectorization)和即时编译(JIT)等技术,相比传统逐行计算的火山模型获得数倍性能提升。

数据和索引(Data & Index)支持行存表,列存表,和外表以及相应索引:

行存表:数据按行存放,支持主键,B+树索引,Bitmap索引,GIN索引等,适合数据实时写入更新删除,点查,范围查,通过MVCC提供事务能力。

列存表:数据按列存放,高压缩比,适合追加写(少量更新删除)场景。通过B+树索引支持高效点查,同时在block级别提供min&max轻量级索引,数据可按多列进行多维排序,支持任意排序列的组合过滤,支持高效分析场景。

外表:元数据存放在本地系统表,数据存放在OSS,支持的数据格式包括ORC,Parquet,CSV,JSON,支持表分区,其中ORC和Parquet支持列过滤和谓词下推,提升分析性能。除OSS外,同时也支持Hadoop(HDFS, Hive)外表。

下图展示了客户端从建立连接到执行一条完整SQL整个过程中上述主要模块组件的交互和执行流程。

将表数据均匀的分布到各个节点中,是发挥集群整体IO性能,提升存储容量,优化计算与网络传输效率的关键。除了默认的哈希分布策略,AnalyticDB PostgreSQL版还支持复制分布和随机分布。复制分布是指在每个存储节点上都存放该表的全量数据,通常用于经常被关联查询的小表,在执行相应查询时无需数据广播或重分布环节,提升查询性能。另外也支持随机分布策略,主要场景是当前表字段中无合适字段作为hash分布列(比如会引起各个节点数据倾斜),同时该表也不小(不适合复制策略),随机分布可以让该表数据被均匀摆放到各节点。

在将表数据分布到各个存储节点后,在单个节点上根据业务场景可对表数据进行分区,在执行具体查询时进行分区裁剪,缩小查找和数据处理范围。AnalyticDB PostgreSQL版支持范围和列表分区类型,同时支持多级分区。下图展示了一张用户表显示通过ID列hash分布到3个节点,然后在每个节点上按date列进行范围分区,然后再按city列进行列表分区。图中最右边的每个分区都对应了一份数据存储和索引。这些分区表可以是行存表,也可以是列存表,或者外表。比如业务上完全可以对最近需要写入的分区(Mar)使用行存表,过去已经归档的分区(Feb)使用列存表,出于降低成本考虑,也可以对较少查询的分区(Jan)使用OSS外表。

AnalyticDB PostgreSQL版不仅仅是关系型也是对象-关系型,数据库的对象通常包括:表、视图、函数、序列、索引、分区子表、外部表等,而对象-关系型则进一步支持用户自定义对象和它的属性,包括数据类型、函数、操作符,域和索引,甚至复杂的数据结构也可以被创建,存储和检索。这些对象将按照逻辑划分成不同的集合即组成模式(schema),每当新数据库创建后,都会默认为数据库创建模式public,这也是该数据库的默认模式,并且允许每个用户(角色)进行访问,所有为此数据库创建的对象一般都将默认在这个模式中。

数据库是数据库对象的物理集合,而模式则是数据库内部用于组织管理数据库对象的逻辑集合,模式之下则是各种应用程序会接触到的对象,比如表、索引、数据类型、函数、操作符等。使用模式把数据库对象组织成逻辑组,让它们便于管理,允许多个用户(角色)使用同一个数据库不会互相干扰。

用户(角色)是数据库(集群)全局范围内的权限控制系统,用于各种集群范围内所有的对象权限管理。用户不特定于某个单独的数据库,如果需要登录数据库管理系统则必须连接到一个数据库上,用户可以拥有各种数据库对象。

缺省情况下,用户看不到模式中不属于他们所有的对象,需要对象所有者赋予相应权限。如果已经被赋予适当的权限,用户也可以在别的用户模式里创建对象。请注意,缺省每个用户都在public模式上有创建对象的权限,比如新建一个表并读写数据。

在AnalyticDB PostgreSQL版数据库中,所有对象作为系统元数据将同时被保存在Master服务器和Segment服务器上。

关注阿里云公众号或下载阿里云APP,关注云资讯,随时随地运维管控云服务

THE END
0.浅谈OLAP系统核心技术点火山模型 (Volcano-style) 是一种 Row-Based Streaming Iterator Model 算子的实现,只需要 open、next、close 三个函数,就可以实现数据从底向上的“拉”取,驱动计算进行。 向量化执行 (Vectorized query) MonetDB 论文提出了火山模型的改进方案——向量化执行,火山模型 tuple-at-a-time 的实现,每个算子执行完传递一jvzquC41zkk/kwkqs0io1jwvkerf1:5h67l7d?7:c7keej;5cc;2fk
1.导入文档火山方舟大模型服务平台/火山方舟大模型服务平台/控制台功能/知识库/文档管理/导入文档 最近更新时间:2025.04.09 17:16:11首次发布时间:2024.05.11 11:57:51 知识库支持结构化和非结构化两大类文档,不同类型文档支持规格请参考:知识库配额说明 非结构化文档 结构化文档 文档类型 规格 jvzquC41yy}/xxqegpmjpn3eqo5eqlx1:498;86483>:2
2.执行器之火山模型(IteratorModel)数据库火山模型火山模型的这种处理方式也称为拉取执行模型(Pull Based)。 大多数关系型数据库都是使用迭代模型的,如 SQLite、MongoDB、Impala、DB2、SQLServer、Greenplum、PostgreSQL、Oracle、MySQL等。 火山模型的优点在于:简单,每个Operator可以单独实现逻辑。 火山模型的缺点:查询树调用next()接口次数太多,并且一次只取一条数据,CPUjvzquC41dnuh0lxfp0tfv8WqqmofaLJQ1cxuklqg1fkucrqu13:37>6::7
3.一文概述联邦持续学习最新研究进展到目前为止,已经有许多持续学习算法,主要分为三种类型:回放方法(Memory Reply)、动态结构模型(Dynamic Structural Models)和正则化方法(Regularization Model)。1)回放方法从以前的数据集中选择有代表性的样本,以保留所学的知识。该方法的研究重点是:「要保留旧任务的哪部分数据,以及如何利用旧数据与新数据一起训练模型jvzquC41yy}/7:hvq0ipo8ftvkimg8<7:3660qyon
4.石油论文(精选5篇)3型钢混凝土结构的选择以及模型的计算 3.1结构选择 对于上述工程的焦炭塔框架设备支承部分来说,为典型的塔型设备基础,即:两塔板式框架联合塔基础,一共有3层,高为27m,纵向连续两跨2.5m×2,横向为单跨12.5m,出焦井架标高为27~117m,属中心支撑钢结构框架。 jvzquC41yy}/3vnujw4dqv4jcq}fp8:75;4ivvq
5.CSH组成和结构课件.ppt中介结构模型 C-S-H 的 meso 结构示意图 * 精品课件资料 矿渣、粉煤灰水泥水化时还有火山灰反应,生成二次 C-S-H。一些非硅酸盐水泥—高铝水泥、硫铝酸盐水泥、碱-胶凝材料中C-S-H也 是主要的水化产物之一 混凝土工程特性:强度、收缩、抗渗性。 * 最早 , 对水化硅酸钙的研究 , 限于用 XRD 、DTA 和化学jvzquC41o0hpqt63:0ipo8mvon532;7127811?5743:63<82267627xjvo