2020 云栖大会期间,阿里巴巴正式成立云原生技术委员会,同时推出了云原生多模数据库Lindorm、云原生分布式数据库PolarDB-X、云原生数据仓库AnalyticDB(ADB)、云原生数据湖分析等一系列重磅自研云原生数据库产品。此举也标志着阿里云数据库全面进入了云原生+分布式时代。

那么,什么是云原生数据库?数据库行业的业界趋势是什么?阿里云在云原生数据库方面如何布局?为此,CSDN有幸采访到阿里巴巴集团副总裁、达摩院首席数据库科学家,同时也是云原生技术委员会核心成员之一的李飞飞。

阿里巴巴集团副总裁、达摩院首席数据库科学家李飞飞

数据库与大数据系统在云原生背景下会怎样结合?

李飞飞强调,得生态者得天下,数据库的生态之所以叫「生态」,有一个很关键的逻辑和观察,即「多样性」。这也是为什么传统的数据库领域中有 OLTP、OLAP、NoSQL 等多种分类的原因。

举个例子,亚马逊雨林是生态,张北防护林就不是生态。数据库领域绝对不能仅仅只做 TP 数据库(事务处理/在线交易),接下来的发展会越来越多看到像 HTAP 这种技术,将在线事务处理和在线分析与计算合二为一,将在线分析和离线计算合二为一,我们会看到越来越多数据库和大数据系统的结合。从产品体系上,我们要为客户提供端到端的数据能力,包括生产、处理、存储、计算分析等。这也是为什么 Gartner 最新数据库魔力象限调查中提出了 “There is Only One DBMS Market”, 将 DMSA(Data Management Solution for Analytics)与 OPDBMS(Operational DBMS)合二为一,推出新的 Cloud DBMS 魔力象限。

在这个趋势下,我们的核心业务策略就是打造新一代云原生数据库产品体系, 以云原生技术与架构为基础,兼容数据库生态,构建数据的生产、处理、存储、计算分析的全链路闭环体验。我们从两个重要维度展开:

(1) 合作伙伴,确认标准、使用体验是不是开放兼容,和合作伙伴一起打造一个丰富的生态;

(2) 产品体系是不是足够丰富,帮客户用一套数据库的标准,来解决数据生产、处理、存储、计算分析的痛点。

基于此,在企业级云原生数据库赛道上,我们构建了一个平台+四个柱子的产品体系。推出了核心的云原生关系型事务数据库 PolarDB 以及分布式版 PolarDB-X 的同时(柱子1),在传统的 OLAP 领域(柱子2),推出了新一代云原生数据仓库 AnalyticDB(简称 ADB)以及云原生数据湖分析 Data Lake Analytics(DLA),ADB 也具备存储计算分离、存储池化、弹性、高可用、离在线一体化的大数据处理能力,用数据库的方式支持客户去处理传统大数据问题。DLA 利用云原生 Serverless 的技术方式和架构设计,实现低成本高效的一键建湖,自动发现和管理多源异构数据源的元数据,并支持 delta 变化。用云原生 Serverless 的方式实现低成本数据湖构建和计算与分析。在NoSQL领域,我们推出了多模数据库Lindorm和Tair,帮助客户高效的处理和存储海量结构化、半结构化、非结构化数据(柱子3)。除此之外我们构建了企业级数据库生态工具产品体系(柱子4),以及一个平台——云原生智能化数据库管控平台。

什么是云原生分布式数据库?

说起云原生数据库,就不得不提云原生。

2013年,云原生(Cloud-Native)的概念由Pivotal公司的Matt Stine首次提出,这也是云原生起源的一种说法;2015年,Matt Stine在《迁移到云原生架构》一书中定义了云原生的十二要素,这十二要素,也被业界认为是辨别云原生的重要标准。

2018年CNCF(云原生计算基金会)对云原生做了一个定义,即云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式API。这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松地对系统作出频繁和可预测的重大变更。

李飞飞表示,云原生的本质就是发挥云计算资源池化、平台规模化等技术红利带来的业务价值,利用容器化部署、微服务、存计分离、Serverless、多租户、智能化调度与运维管控等多种技术手段来充分的发挥云计算带来的弹性、高可用、灵活部署、简化运维、易拓展等这些核心业务价值。

李飞飞接着说道,云原生数据库基于Shared Everything + Shared Storage 的存储计算分离架构实现资源池化高效管理,同时兼具弹性高可用水平拓展的特性。而分布式,就是用Shared Nothing的架构,实现数据水平分片、水平扩展。两者结合在一起,就成为了云原生分布式数据库,其实质是将Shared Nothing 和Shared Everything、Shared Storage 的特性完美结合。

企业为什么需要云原生分布式数据库?

全球知名咨询公司Gartner指出,云将主导数据库市场的未来,到2022年,75%的数据库将被部署或迁移至云平台,只有25%的数据库会考虑部署在本地。云化无疑代表了未来。因此,这个趋势判断,为实际上企业为何需要云原生数据库定了性。

而李飞飞也表示,随着企业业务全面向数字化、在线化、智能化演进,企业面临着呈指数级递增的海量存储需求和挑战,业务有更多的热点和突发流量带来的挑战,我们的企业需要降本增效,进行更好的智能的数据决策,传统的商业数据库已经难以满足和响应快速变化持续增长的业务诉求。

云原生分布式数据库带来的四大特性,很好地解决了企业用户的核心诉求。从资源池化到弹性扩展,再到智能运维,再到离在线一体化。利用这些核心的特性,数据库也将全面的进入云原生加分布式的时代。

具体来讲,云原生分布式数据库的以下几个优点是其将成为未来趋势的主要原因:

易用性

同云计算非常易于使用一样,云原生数据库也是非常易于使用的,由于是完全基于云原生架构构建,所以它可以随时随地的从多前端访问,提供云服务的计算节点。因其集群部署在云上,所以单点失败对服务的影响特别小。而且当需要升级或更换服务的时候,可以对节点进行不中断服务的逐渐升级。

高扩展性

与传统数据库将所有文件和资源都存储在同一主机中不同,云原生数据库会与底层的云计算基础设施分离,所以能够灵活及时的调动资源进行扩容和缩容,以从容应对流量激增可能带来的压力,以及流量低谷期因资源过剩造成的浪费。也正是因为能够灵活扩缩容,云原生数据库也具备很强的可迁移性。

快速迭代

云原生数据库中的各项服务之间是相互独立的,个别服务的更新并不会对其他部分产生不利影响,而不是一旦出了问题就只能全场熄火。此外,云原生的研发测试和运维工具是高度自动化的,这使得应用的更新会更加快速频繁。

节约成本

建立一个数据中心是一项独立而完备的工程,需要大量的硬件投资,还需要能可靠管理和维护数据中心的训练有素的运维人员。此外,持续的运维会给你的财务带来相当大的压力。而使用云原生数据库,则可以以较低的前期成本,获得一个可扩展的数据库,实现更优化的资源分配。

而在当前,尤其是在后疫情时代,各行各业都在加速企业数字化转型。在全面上云、全面数字化的背景下,传统的数据库根本无法满足企业在海量存储、智能化、突发流量应对等方面的诉求。云原生数据库所具备的云端全面的资源池化、运营平台化,按需付费、快速弹性、分布式存储、智能运维等特性,毫无疑问将会全面超越传统数据库,因此,为什么需要云原生数据库,答案显而易见。

引领行业变革 全面升级云原生数据库产品矩阵

正是看到云原生数据库的未来趋势,阿里云在本次云栖大会上,重磅发布业界首款云原生多模数据库Lindorm,同时推出了三大核心自研云原生数据库产品——云原生分布式数据库PolarDB-X、云原生数据仓库AnalyticDB(ADB)、云原生数据湖分析Data Lake Analytics(DLA)的年度重磅升级,全面领衔云原生分布式数据库领域。

其中,云原生多模数据库Lindorm是基于云原生架构,采用自研低成本弹性存储介质、零应用程序改造的智能冷热分离技术和自适应压缩算法,使海量数据存储成本降低80%。Lindorm可同时满足key-value数据、宽表数据、时序数据、文件、图片等多种类型数据的存储、实时查询和检索需求,解决不同类型数据部署带来的架构复杂维护困难、数据存储成本高、业务规模灵活多变等问题,是互联网、IoT、车联网、广告、社交、游戏等场景的首选。

云原生分布式数据库PolarDB-X结合了云原生与分布式的优势,融合分布式SQL引擎DRDS与分布式自研存储X-DB,专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈难题,历经各届天猫双11及阿里云各行业客户业务的考验,助力企业加速完成业务数字化转型。PolarDB-X将这种分布式的能力扩展到了计算层,李飞飞表示,“PolarDB的计算是一写多读多个计算节点,最多做到16个节点,现在,PolarDB-X相当于在PolarDB之上又加上了一个分布式拓展层,这样可以根据企业的并发需求、数据量进行水平拓展。”

在此次云栖大会上,PolarDB-X迎来了年度重磅升级版本,并发布两大全新的企业级功能:混合负载HTAP和全局二级索引透明分布式,使在线交易和在线复杂查询的性能大大提升,效率提升5到10倍以上。

云原生数据仓库AnalyticDB是阿里巴巴自主研发、唯一经过超大规模以及核心业务验证的PB级实时数据仓库,自2012年第一次在集团发布上线以来,至今已累计迭代发布近百个版本,支撑起集团内的电商、广告、物流、文娱、旅游、风控等众多在线分析业务。在本次云栖大会上,AnalyticDB发布了MySQL版本的计算资源分时弹性功能,这个功能可以实现计算资源依据峰谷需求动态扩缩容,从而使得资源成本降低50%-80%;在PostgreSQL版版本中,多Master功能的引入是一个亮点,该功能可提供并发线性扩展能力,可轻松应对高并发场景。其自研的Laser引擎,提供较原生Greenplum一倍以上的性能提升,为满足分析计算实时化提供了有力保证。

此外,阿里云还发布了自研云原生数据湖分析Data Lake Analytics(DLA)的重磅升级版本,全新Serverless Spark功能一分钟可以并行拉起300个计算节点,提供job级别的弹性能力,开箱即用,收费粒度精确到秒级,一分钟就可以跑通一个Spark作业。对于客户而言,从成本上,由于将管控完全多租户化,用户不需要承担这部分额外开销,只需要实际使用付费;从运维方面,一个企业中一个管理员就可以实现整体管理工作,大大降低运维成本;功能上支持用户编程、Python、机器学习等原生API的能力,并且支持OpenAPI、SparkSubmit脚本、控制台提交作业。

阿里云数据库的蜕变之路

梅花香自苦寒来,云原生数据库如今的桃李盛开也不是一朝一夕之功,实际上,早在2011年,阿里巴巴就已经认识到传统IT技术已经不能很好地满足互联网发展的需求,因此,从那个时候起,阿里云就开始着手进行自研数据库的建设。

阿里云Lindorm数据库就是在那时诞生。在历经了阿里巴巴经济体十年磨练,支撑了淘宝、天猫、支付宝、菜鸟网络、IoT等核心业务之后,Lindorm才具备了现在每秒千万级吞吐、百PB存储规模和个位数毫秒响应时延的强大性能。

2017年9月21日,阿里云发布了全新一代云数据库产品PolarDB,这是首个国产的通用高性能自研数据库,在高性能通用数据库这块高地上,第一次出现了中国厂商。而后,相续发布云原生数据仓库AnalyticDB、云原生分布式数据库PolarDB-X、云原生多模数据库Lindorm、云原生数据湖分析Data Lake Analytics(DLA)、数据库自治服务DAS等,形成了完整的阿里云原生数据库产品矩阵。

李飞飞介绍说,在企业级云原生数据库方面,PolarDB以及它的分布式版 PolarDB-X是阿里云在OLTP(在线事务处理)领域推出的核心产品云原生关系型数据库 。PolarDB充分的利用了云原生技术架构里面的资源池化和资源解耦思想,利用分布式共享存储以及shared-everything架构实现了存储池化、计算池化、存储计算分离,做到了分布式架构透明化的集中式部署,具有优异的分钟级别弹性、金融级高可用、性价比和兼容性, 可以很好的支持传统商业数据库向云原生数据库平滑迁移。PolarDB-X在此基础上,进一步结合shared-nothing架构来实现水平拓展,利用分布式事务处理和分布式查询优化技术做到透明式的分布式+云原生架构。

在OLAP(在线分析)领域,阿里云推出了新一代云原生数据仓库 AnalyticDB(简称 ADB)以及云原生数据湖分析 Data Lake Analytics(DLA),ADB 也具备存储计算分离、存储池化、弹性、高可用、离在线一体化的大数据处理能力,在支持复杂分析与计算的同时支持CURD(增删改查), 用数据库的方式支持客户和业务去处理大数据计算与分析。同时ADB也高度兼容现有生态,可以很好的做到传统数仓一键升级到云原生数仓。ADB也支持HTAP, 可以高效的处理混合负载。

DLA 利用云原生serverless 的技术方式和架构设计,实现低成本高效的一键建湖,自动发现和管理多源异构数据源的元数据,并支持 delta 变化。用云原生 Serverless 的方式实现低成本数据湖构建、管理、计算与分析。

在 NoSQL 领域,阿里云在今年云栖大会上重磅推出了云原生多模数据库 Lindorm,帮客户提供「存得起、看得见」的非结构化、半结构化的数据存储与处理解决方案。由此客户可将海量的非结构化和半结构化数据存储在 Lindorm 中,并以简易、高效的方式处理和查询数据,比如时序、日志、文档等。另外提供了企业级缓存Tair,支持热点打散、智能化冷热数据分离、将一个集群内存进行集群化的管理和使用和调度等,由此极大提升应用对缓存、内存数据库的访问,提升效率和降低成本。

除此之外,阿里云也研发了结合机器学习与AI技术的云原生智能化管控平台,提供基于云原生架构(例如基于K8S的管控编排),利用DAS(Database Autonomy Service)来提供数据库自动驾驶平台,实现数据库系统的自治化与智能化。同时,阿里云也建立了丰富的企业级数据库生态工具体系,例如数据传输同步DTS,数据库备份DBS,数据库应用评估与迁移ADAM和数据应用开发与管理DMS。

目前,中国邮政、南方航空、海尔集团、美的集团等大中型企业,点评微生活、莉莉丝游戏等互联网公司都已经成为了阿里云云原生数据库产品的用户。

云原生数据库的未来将走向何方?

李飞飞强调:”数据库领域的核心发展方向是云原生+分布式,以及由此带来的几个核心技术布局: 安全可信、自治与智能化、数据库大数据一体化(HTAP/离在线一体化/计算分析一体化)、数据仓库与数据湖、多模数据库以及软硬件结合。“

据悉,未来阿里云数据库将深度结合云原生与分布式,通过“Shared Nothing”、“Shared Everything + Shared Storage”、存储计算分离等技术,帮助用户最大限度的实现资源池化、弹性变配、超高并发等能力。数据库自治服务DAS将进一步结合云原生数据库的弹性能力,向用户提供智能化的Serverless数据库服务。

“作为全球领先的云计算公司,阿里云全面打造云原生数据库技术与产品体系, 帮助企业客户和开发者接触和使用到最适合他们业务发展和部署的云原生数据库产品。在确保业务与数据安全可信、稳定可靠的前提下,阿里云利用All In云原生战略带来的丰富的云原生产品体系和生态,将助力我们的客户和开发者能够更加敏捷、更加智能化、更加低成本的实现云上数字化转型与升级,同时享受到云原生技术红利带来的TCO成本下降。”李飞飞表示。

Logo

20年前,《新程序员》创刊时,我们的心愿是全面关注程序员成长,中国将拥有新一代世界级的程序员。20年后的今天,我们有了新的使命:助力中国IT技术人成长,成就一亿技术人!

更多推荐