近年来,随着硬件算力设备和算法模型的标准化及人工智能、云计算等软件技术的成熟化,带来了爆炸式的数据增长,数据也逐渐成为最不可控的变量。数据处理的需求与技术难度在不断增加,促使数据库技术在发展中创新,在创新中应用。

为了推动数据库技术应用的进一步落地,10 月 25 日由湖南省工业和信息化厅、湖南湘江新区管理委员会指导,长沙市工业和信息化局、长沙信息产业园管委会和 CSDN 联合主办的“2022 长沙·中国 1024 程序员节”,特设了“数据库技术及应用实践”主题论坛,共邀请到了 5 位数据库领域的资深技术专家,他们就数据处理技术创新与最佳实践进行了演讲分享。

《数据库技术及应用实践论坛》精彩回放:https://live.csdn.net/room/csdnlive1/POSV3mbm

演讲嘉宾包括:

  • 胡 俊 达梦数据库产品服务中心副总经理

  • 程 祺 巨杉数据库SequoiaDB首席架构师

  • 李月飞 浪潮开务数据库高级技术总监

  • 张文亮 华为云数据库创新Lab主任

  • 李进峰 望繁信科技联合创始人兼CTO

技术引领、创新驱动,分布式数据库实践探索

随着大数据时代的到来,互联网的作用已逐渐从简单的数据交流和信息传递上升到基于海量数据的分析,在新的挑战和机遇下,达梦对分布式技术进行了大量探索。

达梦数据库产品服务中心副总经理胡俊介绍了达梦数据库从上世纪 80 年代的单机数据库,到如今其分布式数据库架构的不断迭代:

  • 第一代分布式 DM MPP 具有可扩展、高性能的特点,支持并行处理并优化了数据存储,但高速、可扩展、高可用、元数据分布在所有节点上,扩展方式比较复杂、数据分布方式不灵活,不擅长高并发短事务交易。

  • 基于 DM MPP 的不足,达梦推出了第二代分布式 DM TDD,主要特性为多点写入、多副本容灾能力和在线扩/缩容,然而计算层采用 RAC 的缓存融合方式,导致紧耦合不易扩展、单独日志层,容易出现瓶颈。

在这里插入图片描述

为此,新一代分布式数据库 DM DPC 便具备了存算分离、横向扩展,强事务一致性和强大的 SQL 引擎,引入 Raft 协议,支撑“两地三中心”多活部署,降低事务延迟,使 95% 的业务场景全面提升 5-10 倍。

多模+实时,湖仓一体「释放」全量数据「价值」

“在数字化的推动下,如今企业不但需要面向业务的交易核心,同时更需要构建面向企业全量价值的数据核心。”

巨杉数据库 SequoiaDB 首席架构师程祺介绍道,SequoiaDB 自研原生分布式数据库内核自 2011 年起,从多模数据湖到实时数据湖再到湖仓一体,历经 10 年仍初心不变:“海量、实时、多模,释放全量数据价值。”

在这里插入图片描述

相比以前的 v5.0 版本,程祺表示最新的 SequoiaDB v5.2 吞吐量显著提升,具备四大特性:

  • Join优化 + 列存微分区:查询分析更实时,查询优化毫秒返回,分析提升高达 10 倍;

  • 分片并发 + 可变分片大小:非结构数据更实时,吞吐量提升 30% 以上;

  • 全量数据生命周期管理:热、温数据实时可用,提升人效 & 能效;

  • SAC 链路监控:分布式架构诊断更实时,业务问题“分钟级”定位。

开务数据库及其在 IoT 场景下的技术实践

据 Gartner 统计,2021 年达到 800 多亿美元,较 2018 年市场增长了 22.3%,预计 2023 年数据库软件市场达到 1000 亿美元。其中,2020 年中国数据库市场总规模达 247.1 亿,较 2019 年增长 16.2%。

对此,浪潮开务数据库高级技术总监李月飞预测:未来几年数据库作为软件产品,仍然会持续发展,中国数据库也具备广阔的市场空间和快速的增值空间,开务数据库也应运而生。

作为开务数据库产品线之一,开务分布式数据库时浪潮研发最早、推广最早的数据库产品,具有强一致、高可用、高性能、弹性容量、可管理、易用、安全和云原生八大特点;

开务时序数据库是一款功能丰富、高性能的时序数据库,专为物联网、工业互联网、数字能源、金融等场景设计并优化,能让大量设备、数据采集器每天产生的高达 TB 甚至 PB 级的数据得到高效实时的处理;

除此之外,李月飞还介绍了有关开务 AIoT 分布式数据服务平台 KDP 的架构及相关实践案例。

在这里插入图片描述

openGemini:时序数据库面临的技术挑战和应用实践

回顾时序数据库的形态发展,华为云数据库创新 Lab 主任张文亮指出,早期时序数据库模型比较单一,单机并且容量受限,后来经历了通用→垂直→云原生,运维域技术也从传统监控向可观测性发展。

不过,可观测性也给数据库带来了许多技术挑战:需要采集的数据类型和数据量越来越多;多种类型数据需要做关联分析;海量数据的实时统计分析;运维问题处理需要实时在线智能决策——openGemini 由此诞生,旨在打造可观测性一站式存储底座。

总体而言,openGemini 是一款采用 Apache 2.0 协议的开源分布式时序数据库,可广泛应用于物联网、车联网、工业互联网和运维监控等业务场景。以“拥抱开源社区,开放全部核心功能代码”为开源策略,openGemini 的成长速度飞快:最初在 2019 年由开源 InfluxDB 改造,到 2022 年如今已至技术成熟阶段。

在这里插入图片描述

流程挖掘算法与数据库——让企业获得全知视角

1999 年,Wil van der Aalst 第一次提出了这个“流程挖掘”概念:“流程挖掘是从现有事件日志中挖掘知识,以发现、监控和改进实际流程的技术。”对于这句话,望繁信科技联合创始人兼 CTO 李进峰解读为:“流程挖掘是一个边缘性学科,主要涉及流程科学和数据科学两大领域。”

在这里插入图片描述

目前,流程挖掘全球市场规模达数百亿,50% 以上世界 500 强公司都在使用流程挖掘技术。通过大数据分析技术的加持下,流程挖掘可为业务提供丰富的流程业务洞察,助力企业业务流程的标准化:

  • 分析流程问题:流程挖掘分析作为X光机分析出企业的业务问题;

  • 流程标准化:通过流程挖掘从数据分析正式的业务流程,通过人工调整形成标准的业务流程;

  • BPR(业务流程再造) :根据标准化流程在现有IT系统中进行优化或改造。

至此,“数据库技术及应用实践”主题论坛的演讲分享就结束了,欢迎感兴趣的小伙伴点击下方链接,回看更多精彩细节:https://live.csdn.net/room/csdnlive1/POSV3mbm

在这里插入图片描述

Logo

20年前,《新程序员》创刊时,我们的心愿是全面关注程序员成长,中国将拥有新一代世界级的程序员。20年后的今天,我们有了新的使命:助力中国IT技术人成长,成就一亿技术人!

更多推荐