2022年1月6日,由中国电子技术标准化研究院指导、CSDN主办的DC2021“数聚未来”分布式数据库开发者大会于线上正式召开。
经CSDN联合极客邦、思否、开源中国、51CTO、掘金、木兰开源社区共同评选,从技术创新,行业实践、学术研究、生态拓展等维度对参评人进行考评,初心投资企业滴普科技CTO吴小前、SphereEx创始人及CEO张亮,成功荣获首个分布式数据库领域的重要奖项,被评选为 “2021年度海纳奖——分布式数据库十大先锋人物”。
以下内容来自滴普科技
国产化替代趋势突出,分布式数据库将成为核心
近年来,随着数据量爆发性增长,导致数据负载随之扩大,对数据库扩容的需求愈加迫切。但面对大规模数据处理,集中式数据库的局限性问题日益凸显。
吴小前认为,国内的数据库发展起步较晚,自2010年开始经历了传统数据库、云数据库、分布式数据库三个阶段。尤其是伴随云计算的发展,企业面临更多的是半结构化、非结构化数据,因而NoSQL、NewSQL、HTAP、多模等分 布式架构的数据库开发规模逐渐扩大。
在他看来,分布式数据库以高可用、可扩展、多地域、多部署形态、混合负载以及透明兼容性等诸多特性,正成为企业核心系统升级的首选。可以预见的是,随着业务对大数据技术需求的不断演变,分布式数据库的地位愈加重要,必将成为未来大数据技术发展的核心。
采用云原生架构,滴普科技构建技术开源生态
作为大数据发展的核心技术,分布式数据库主要解决分布式事务处理与查询优化智能数据分布技术、智能运维调优技术等。基于此,吴小前和滴普科技研发团队,首次引入领先的MDS架构,规划并设计了国内首个低成本、高性能、易使用的云原生数据智能平台FastData, 服务于企业建立流批一体和湖仓一体的新一代数据存储计算平台和数据科学分析平台。
面对大规模的数据存储,FastData采用存算分离架构,弹性扩展、高并发、低延时,支持结构化、半结构化、非结构化数据存储,实现EB级的大规模存储部署;并内置包括S3/OSS/HDFS/OBS的多模态的存储引擎与分级存储,深度整合各类云数据存储。同时,滴普科技还引入Apache iceberg表存储引擎,支持公有云和私有云部署、支持多级分区、动态扩容、弹性调度,以及并发控制的ACID事务,确保了多方并发读写数据的一致性。
在实际部署中,FastData则采用独立的存储和计算集群,能独立扩展支持更大的用户并发和数据量,使得资源按需使用,进一步降低成本。
目前,FastData 已经赋能于先进制造、生物医药、能源出行、政务双碳、金融科技、消费流通等领域,取得了一定的实践成果。
以国内某鞋服零售集团为例,之前该集团的数据分布在CDH/DB2/MySQL/Oracle等OLAP数据库中,滴普科技为其完成核心大数据组件升级,从原来的 Hive、Spark、离线计算等技术,升级为 FastData-DLink、FastData-DCT、FastData-DataFacts,将原有 7 个数仓平台整合形成湖仓一体实时架构。 统一数仓之后,实现实时数据分析,节约了大量传统数仓的技术运维成本。
为了将创新技术赋能于更多业务场景,滴普科技致力于打造DEEPNOVA开发者社区, 希望可以凭借其开放、共享等特性,在更短的时间内快速完成产品迭代、生态构建、品牌渗透,提高数据技术产品的创新效率。
未来,随着企业数字化进程的加速,不同的业务场景需要不同的数据模型、负载类型,滴普科技将继续坚持云中立理念,采用分布式架构,并支持越来越多的新数据管理和数据处理服务场景,满足当前以及未来数字产业发展的需求,引领数据智能技术的革新发展。
以下内容来自SphereEx
在分布式数据库开发者大会中,SphereEx 创始人 & CEO 张亮进行了【分布式数据库下的 Proxy 与 Proxyless 架构】主题演讲。
张亮提到,在 Service Mesh 层面,随着支持异构语言的 Proxy 模式被一再证明性能瓶颈之后,基于特定开发语言的 Proxyless 模式重新回到了工程师的视野之中。无侵入的异构语言友好性,和针对于特定语言的高性能的权衡,成为了分布式数据库架构选型的核心问题之一。
由于 Apache ShardingSphere 并不纠结于存算分离的数据库架构,天然支持 Proxyless 模式,通过将 Proxy 和 Proxyless 模式相结合,用户可根据业务场景需要来选择合适的部署 模式:
-
在对 DBA 使用友好度高的场景下, 使用 Proxy 可以让用户像使用原生数据库一样使用 Apache ShardingSphere;
-
在对性能有极致要求的情况下, 则使用 Proxyless 模式,以牺牲小部分侵入性为代价,将性能提升至极致,实现在操作系统内核实现流量的处理、治理、观测;
-
混合部署 Proxy 和 Proxyless 模式,达到友好度和性能兼顾的平衡。
在 2021 年,数据库碎片化的形势已经非常明显,企业下的多条业务线往往会选择多款不同类型的数据库,这就导致单一数据库的周边服务无法复制给其他数据库,且难于处理多元数据库的共性需求。并且由于企业往往会选择 Proxy 与 Proxyless 模式共存的形式,导致部署结构混乱的情况屡屡出现。
对此,张亮提到了 ShardingSphere Mesh 构想,围绕配置治理、流量治理、部署实例治理这三个层面,对云上数据架构实现集中管控。 其中,配置治理层面主要负责配置集中化、分布式下推;流量治理层面主要负责双路由机制、流量可编程,实现动态设置路由;部署实例治理主要负责可观察性以及实例的自愈能力。
技术的演进似乎是一个轮回。在架构演进层面,Proxy 是更适合在云上部署的方式,Proxyless 似乎有些落伍。但在技术应用层面,无论 Proxyless 还是 Proxy 都不存在哪一种更先进的说法。相反,Proxyless 能够在服务网格、应用内细粒度治理、提供标准 SDK 等方面对 Proxy 进行能力补充,从而帮助企业更顺畅地完成从传统数据架构向云原生数据架构的迁移与转变。
企业数据架构的构建是一个需要从全局进行规划,且能够持续迭代的系统性 工程。 在数据库碎片化程度越来越高的今天,需要一套中间层平台来对其进行统一管控。未来,SphereEx 将在 Database Plus 理念的基础上,进一步完善数据库上层架构的周边服务与生态,以客户真实场景需求为出发点,为企业的生产场景赋能。