受访者 | 邵宗文,腾讯云图数据库产品经理
记者| 夕颜
出品 | CSDN(ID:CSDNnews)
AI 技术生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分。通过对 AI 生态顶级大咖、创业者、行业 KOL 的访谈,反映其对于行业的思考、未来趋势判断、技术实践,以及成长经历。
本文为 「AI 技术生态论」系列访谈第三十四期。
百万人学 AI 你也有份!今日起,点击阅读原文报名「2020 AI开发者万人大会」,使用优惠码“AIP211”,即可免费获得价值299元的大会在线直播门票一张。限量100张,先到先得。
近日,又一国产数据库诞生!这次是腾讯家推出的分布式图数据库产品——腾讯云数图 TGDB(Tencent Graph Database)。
据称,这款数据库能够实现万亿级关联关系数据实时查询,高效处理异构数据,支持实时图计算。从理论上说,该图数据库的集群节点规模可以达到万台以上,在不同的公开数据集下查询速度比世界市场占有率最高的 Neo4j 快 20-150 倍!
在近年,图数据库逐渐火爆起来,据 Gartner 在《十大数据分析技术趋势》预测,2012 年至 2022 年,全球图处理及图数据库的应用都将以每年 100% 的速度迅猛增长,DB Engines 近 7 年数据库流行趋势也显示,图数据库相较其他主流数据库受欢迎程度遥遥领先。
此前,业内主流图数据库产品主要为国外厂商,国内金融、电商、能源等重点行业只能依赖于国外图数据库产品。在此背景下,关于我们什么时候能拥有真正能满足国内企业需求的强大国产数据库,成为大家关心的热门话题。好在随着大数据,尤其是图数据的重要性被更多厂商意识到之后,国内大小厂也相继推出了自己的图数据库产品,试图打破国外技术厂商的垄断,包括大厂阿里云的图数据库 GDB,蚂蚁金服自主研发的分布式图数据库 GeaBase,华为的 GraphBase,小企业如杭州欧若数网科技也有自己的图数据产品 Nebula Graph,维加星信息科技的TigerGraph 等。
按照理论,从技术适配性、安全性、成本上来说,国产数据库产品应该更加符合国内企业的需求和信息化的节奏。事实上是这样吗?我们今天的关注重点,是与已经发布的图数据库产品和国外数据库产品相比,腾讯云数图新发布的这个 TGDB 有哪些特别之处?是否比它们更有优势?为此,CSDN 邀请到腾讯云图数据库产品经理邵宗文,来从研发背景到上层设计,全面评估一下这个图数据库产品是否名符其实。
TGDB 的研发背景
在 5G、物联网、人工智能等数字化技术的推动下,企业数据呈爆发式增长,数据间的关联复杂度也随之剧增。传统关系型数据库在处理复杂关联数据时运算效率较低,且难以帮助企业进一步挖掘海量关系数据背后的价值。为了更好地利用数据间的连接,企业需要一种将关系存储为实体、灵活拓展数据模型的数据库技术,腾讯看到了图数据库潜藏的机会。
在深入调研后,腾讯发现客户其实往往需要的是一辆车,除了制造图数据库发动机之外还需要一系列合作伙伴来做配套,才能满足企业的需要。目前,腾讯的图数据库生态构成主要都是行业顶尖数据库人才和及相关上下游合作伙伴,其中有海归,和 10 多年数据库领域的资深专家构成,重点研究方向包括图数据库分布式存储、高性能计算、图算法,以及生态组件如迁移工具、可视化、数据抽取、数据建模等。
图数据库技术上的突破
相比于国内外其他图数据库产品,TGDB 有一些独特的特性。总的来说,正是因为 TGDB 在技术上的一些突破带来了性能上的提升和架构上的灵活扩展,才实现了全新的特性,包括去中心化纯分布式架构、高效的原生存储、图切割和分布式算法等。
去中心化分布式系统架构
据邵宗文介绍,TGDB 采用了去中心化分布式架构,理论上支持线性扩展,从目前的部署和使用来看,TGDB 的图数据存储极限还远没有到达极限,在实验室中,团队曾在测试中测得图数据集群节点数量为 100 台,但根据理论推演,TGDB 图数据库的集群节点规模可以达到万台以上,在不同的公开数据集下查询速度比世界市场占有率最高的 Neo4j 还要快 20-150 倍。
如此大规模的存储极限和极快的查询速度,与 TGDB 的系统架构设计分不开。