当我们进行疫情防控工作时,能够对疫情传播链条进行快速的溯源分析和时空交错分析,识别高风险区域;当我们在用搜索引擎搜索“双奥之城是哪里”的问题时,搜索引擎会直接给出答案“北京”;当我们在刷抖音、逛淘宝时,总能出现喜欢看的视频和产生“剁手”冲动的商品。快速的追本溯源、精确的智能问答以及实现个性化的推荐的原理来源于什么你知道吗?谈到这儿就必须聊到人工智能技术版图很重要却容易被忽视的一块——知识图谱。
为什么知识图谱能够发挥如此巨大的作用呢?因为它背后的图数据结构是对真实世界更准确的描述,原先的关系模型虽然简洁易理解,但它对现实的描述,尤其是复杂场景下,却有些偏离。知识图谱所依仗的图数据库可以为真实世界直观地建模,机器因而获得了像人类一样的“认知智能”。
图数据库是专门来对图数据来进行实时存储和管理的工具,成为图计算的基础性平台。近年来,图数据库和图计算技术快速地发展,在复杂场景上比传统关系型数据库计算速度有指数级提升。据灼识咨询资料,知识图谱及数据智能行业近年来年复合增长超过20%。
作为AI领域的国家级高新技术企业,海致科技集团依托与清华大学共同研发的高性能图计算技术,为政府、企业级客户提供知识图谱、大数据分析、图计算、图数据库等产品和服务。
今天,《灼识三点半》栏目,对话海致科技集团总裁、CTO杨娟女士,为大家伙儿一起来分享关于知识图谱和图数据库的技术和场景落地的独到见解。
受访嘉宾:杨娟,海致科技集团总裁、CTO,海致星图CEO,清华大学计算机科学与技术系博士,美国霍特国际商学院MBA,复旦大学计算机科学专业本科及硕士;中国电子信息产业发展研究院第三届学术委员会人工智能分委会委员;银监会和人民银行联合的知识图谱标准起草专家委员会成员。
灼识咨询访谈人:赵晓马,灼识咨询合伙人,专注于人工智能、物联网和高端制造业务,拥有近15年专业顾问和咨询服务经验,见证和参与过近300家优秀企业在境内外长期资金市场的融资里程碑事件和首次公开募股。
赵晓马:您好,公司原先在知识图谱领域做得很出色,现在推出了图数据库产品和图计算平台,图数据库以及图计算和原先的知识图谱的关系是怎样的?
杨娟:图数据库是知识图谱的一个核心技术环节,前几年,我们图数据库产品的最重要一块是用国外开源产品构建的。跟着时间的推移,应用场景深入复杂,数据量慢慢的变大,客户对实时性要求慢慢的升高,底层开源数据库不能够满足客户需求。同时受到国际环境的影响,我们担心基础软件受制于国外,出现“卡脖子”的状态,所以海致决定自研一款具有自主知识产权的高性能图数据库。因此,我们与清华大学高性能计算所达成合作,联合研发了AtlasGraphDB高性能图数据库,目前已投放市场。相较于国外同类型产品,在技术指标方面有全面提升和突破。高性能图数据库能够支持更大范围内的实时场景,如万亿级大图的查询,对于金融领域高频交易、工业互联网产效提升、能源领域电碳实时测算等场景是非常有力的支撑。
赵晓马:图数据库是个很新的产品,图数据库比传统关系型数据库的先进性在哪?您能否深入介绍一下图数据库?
杨娟:图数据库和关系型数据库的对比方面:关系型数据库,如Oracle,SQL server,以行列式数据结构对世界进行二维表达,这其实是对世界的简化。世界是复杂和关联的,如人与人之间、交易与交易之间、设备与设备之间有很多复杂关系,以图状结构表达会更加恰当。关系型数据库用二维表格对这些结构可以进行了抽象,优点是简单、能快速进行统计查询,但损失了结构和拓扑信息。图数据库则是对真实世界的完整描摹,以图的方式来进行建模,能更好地表达万事万物之间的关系。投射到具体的数据应用领域,在关系分析和关系挖掘场景,图数据库有更强的表达和计算能力,如金融中客户和客户之间的关系,像客户之间的转账、交易担保、票据等,基于这些关系来进行反洗钱、反欺诈团体的发现,风险的传导建模,供应链上下游的营销推广等,在这种多个体协同或关联的场景下,图数据库计算速度比关系型数据库有指数级提升。
赵晓马:明白。图数据库和关系型数据库二者之间是并存的,还是未来哪一种会变成主流而另一种会没落?
杨娟:当前是并存状态,但是中长期来讲,图数据库会慢慢占领关系型数据库的一部分市场,也就是说,一些原本用关系型数据库的场景会被图数据库接管。但图数据库要想完全替代关系型数据库,这是个比较漫长的过程,所以两者并存是目前看到的最大可能性。
赵晓马:现在是个数据爆炸的时代,如何管理和使用数据最重要,运用知识图谱、图数据库和图计算,能带来什么样的价值?能否请您举个代表性落地案例来说明?
杨娟:以银行反洗钱领域为例,海致Atlas知识图谱平台利用智能数据识别组件和高性能图数据库引擎实现海量数据秒级分析和挖掘,帮助某银行构建企业级知识图谱,有效提升了反洗钱工作成效。随着网络技术的发展和支付电子化,洗钱活动更加专业、复杂、隐蔽。常规技术下,反洗钱系统产生的可疑预警案例多,人工甄别工作量大,涉嫌洗钱团伙展示不够直观,较难甄别资金之外的关系。我们的产品助力某银行构建知识图谱反洗钱监测应用平台,覆盖千万级别节点和亿级关系,建立反洗钱客户关系网络,融合可疑交易特征和全量交易登录流水,以网络图谱方式动态展现资金流转全貌,完整准确展现团伙共用设备关系、账户资金分层结构和流向轨迹,通过图的异常形态识别和人工智能图算法形成有效预警模型,高效从客户群组中抓取涉嫌洗钱团伙。目前已经多次成功挖掘数十人至上百人的疑似洗钱团伙,包括电信诈骗、经营虚拟货币、非法经营外汇期货等。对性质严重、分析识别耗时长、容易漏报的涉嫌洗钱团伙识别和挖掘,实现发现一个即可牵出一批的连根拔起的识别效果,提升了反洗钱工作的穿透性、时效性和精准性。
上述只是银行领域一个例子,图技术应用的范围很广,例如我们还为某大型航空制造公司构建了以NLP技术为核心的智能知识库,并在此基础上为用户更好的提供智能问答服务,构建了Metis知识平台,用户都能够快速、准确地获取所需知识,有效解决日常运营中的技术问题,助力国产飞机制造产能爬坡。
赵晓马:您刚刚举了一个金融行业和一个航空制造企业的例子,讲得很清楚,现在知识图谱技术还落地在哪些场景中?
杨娟:综合提炼图的场景,其实分为六大类:一是路径查找,人跟人之间、账户与账户之间、节点与节点之间路径的查找;二是社团的发现;三是中心性的识别;四是相似结构的发现;五是连接预测;六是路关系的权重评价。此外,还可以把图算法和机器学习融合在一起,这也是一种常见应用。
具体投射到业务场景上,图技术的用途十分普遍。金融领域反欺诈、反洗钱审计,产业链营销和风控,信贷风险传导,信用卡授信评估,催收客户失联修复,市场风险指标归因等。公安行业的应用包括警情识别、情报关联等。此外,还有制造业和能源行业的设备知识图谱等。能源、工业制造、交通、医疗是我们正在拓展的四个行业。
赵晓马:公司正在拓展的行业和原来所做的金融、政府等场景的特点有什么不同?那相应的知识图谱技术有什么不同的地方吗?
杨娟:这一些行业的数据来源更丰富,需要知识图谱升级迭代成多模态知识图谱。金融和政府行业的数据相对来讲更加结构化,而能源、工业制造等行业有大量非结构化数据,比如文本、音频、视频、设备数据。对此我们专门在上海成立了一个研发团队去升级多模态知识图谱技术,致力于提升多模态知识数据的汇聚、检索、问答、模型训练、知识抽取、图谱构建以及价值挖掘能力。
赵晓马:明白,图技术现在覆盖行业十分普遍,在这一些行业里,我们的产品是有共通的内容,还是每个行业都要积累一些优化?
杨娟:我们的产品是分层的,底下会有一个通用平台层,是各个行业都通用的技术组件,在平台层之上,有不同的行业团队去构建针对每个行业的场景和模型,这个模型层是和各个行业所匹配的。我们从一开始就采用底层技术和行业应用相隔离的策略,底层平台和业务应用呈现松耦合状态,保证了底层平台的通用性。
赵晓马:在数据库领域,国外企业一直是大幅突出国内的,但现在涌现出慢慢的变多的国产数据库,您觉得国产数据库行业背后的驱动力是什么?您怎么样看待这些发展,以及海致在发展浪潮中的位置和优势?
杨娟:现在对于国产数据库企业来讲是非常好的时代,因为整个经济在蒸蒸日上,产业在蒸蒸日上,数字化水准不断提高,所以有了更多的数字化运营和数字驱动创新的土壤,会催生出各种各样数据存储、应用、分析的场景。只有在这样的土壤和场景之下,才有机会诞生伟大的数据库产品。另外,从国家的角度来讲,对于基础技术软件领域的支持力度非常之大,这也是国产数据库软件的一个绝佳契机。
如果单独说图数据库领域,我觉得图数据库比关系型数据库有更好的机遇,因为在关系型数据库领域,国外的像Oracle、DB2已经有太大优势,国产关系型数据库的追赶周期会比较长。而图技术本身比较新,现在国内外技术差距不是很大,图数据库领域的追赶性、超越可能性强,同时又因为国内比较好的土壤和政策,所以我们很有信心可成为真正的全世界内图数据库和图计算领域最好的企业。
赵晓马:理解。您刚才有个点讲得非常好,在图数据库方面,国内外技术差距没那么大。就国内业务而言,像金融、政府行业,对数据的敏感性、保密性要求高,需要有国产化替代,除此之外,您怎么样看待我们和一些国外的先进数据库公司在开展国内业务时的竞争优势?
杨娟:从自主独立可控来讲,我们占据非常大的优势,现在金融机构和大型国企会优先选择技术自主可控的软件,即使过去采购了国外软件,现在也在讨论替换,所以从外部环境的角度来讲,优势毋庸置疑。从架构本身来讲,我们现在优势也显而易见。比如说像国外的Neo4j,它应该是当前全球图数据库领域的头部,但它的整个架构在分布式领域来看其实不完善。国内很多大客户现在多数使用私有云结构,这实际上的意思就是分布式的,包括分布式的弹性扩容和伸缩。我们的图数据库从一开始架构就是分布式的,而国外产品更多是单机扩展结构。单机扩展结构用一台机器可以跑得非常快,但是有5台10台上百台机器的时候,就不能很好地支撑弹性、水平的伸缩。我认为国内外IT水平,至少在图数据库层面,某一些程度上已经有一点倒灌。我们有后发优势,从最近参加的各种POC(Proof of concept,概念验证,针对客户具体应用的验证性测试)和评测看,我们产品的主要部分都更优。
赵晓马:我们理解公司成长有一些内在的发展逻辑,想请您聊一聊公司一路走来的发展逻辑是怎样的?
杨娟:这样的一个问题可以分成两个角度来看,一个是我们的技术发展逻辑,另一个是市场发展逻辑。
技术发展逻辑上,作为企业级知识图谱的开创者,海致一直在围绕着图计算分析技术创新研发,在技术和产品层面上双向发展。在技术层面,从图计算到高性能图计算,实现了更大规模、更复杂结构数据的实时计算和分析,提升了大规模图数据分析处理的速度。在产品层面,从Atlas知识图谱到Metis知识平台,再到AtlasGraph DB图数据库,构建了从图计算的应用层到基础软件层的产品体系,并在金融科技、数字能源、人机一体化智能系统、智慧交通、智慧城市等领域已经有了十分普遍的落地。我们的产品还包括大数据分析领域,创新研发了DMC大数据建模中台、可视化智慧大屏、BDP商业智能平台等大数据分析产品。基于这些核心产品,构建了企业级AI+BI(人工智能+商业智能)产品生态,以极强的平台能力覆盖企业从底层数据治理到上层应用决策的全场景,全方位提供存储计算到分析决策的全栈式认知智能服务。此外,海致科技已完成了对多个国外产品的迁移和替代,与多个重要客户在不一样的行业建立起国产化替代场景实验室,通过前端落地方案沉淀的经验反哺技术与产品的持续升级迭代。
市场发展逻辑上,海致以企业数字化转型为切入口,提供从底层数据治理到上层应用决策的全栈式认知智能技术。在企业数字化转型的过程中,为满足业务水平的提升、工作效率的增加以及供应链的优化等需求,过去的企业大多数偏向于聚焦某个特定的业务方向或者场景进行单点突击、重点攻克,而现在,慢慢的变多的企业则开始做一揽全局、自底而上的企业级数字化能力建设。海致完善的产品体系和丰富的落地经验,能够服务用户从应用层到基础软件层构建全面的数字化能力。如某国有大型银行引入海致的知识图谱技术构建了全行级平台,去赋能反欺诈、反洗钱、智能营销、工作提效等多个业务场景,同时还与海致共同成立了国产图数据库应用实验室,主要以替代非国产数据库为主要试验场景,将图计算技术从应用层推向基础软件这一基础设施层面。
赵晓马:这两年技术本身在迭代,新技术也在出现,公司如何确保在技术内核上保持突出?
杨娟:大致上可以分为三个层面:第一是有技术上的洞察和视野。知识图谱处于第三代人工智能,也就是“认知智能”的一个核心位置,第三代人工智能的发展周期远远长于前面的“计算智能”和“感知智能”,所以知识图谱具备长期生命力。在这样的领域也会有很多新的技术元素出现,比如现在比较聚焦的图神经网络、图和持续计算的融合、知识图谱和云计算的融合,我们很注重在知识图谱的框架下吸纳新兴技术元素。第二是保持最好的团队,目前我们和清华、北邮合作,相对来讲都是国内知名人才。第三是和最知名的客户合作,比如招行、国家电网、商飞等,头部客户的业务创新会带来新的视角。
赵晓马:有很多数据库产品例如阿里PolarDB、PingCap的TiDB等都采用开源的方式努力成为行业的基础设施,公司现在没有采用开源方式,那么以后会采取开源方式吗?关于商业路径您有咋样的思考?
杨娟:您提到的TiDB等产品,虽然开源版本做得很好,但其实在大银行这些客户里仍然是销售商业版本。开源的好处是提升影响力,也培育人才,同时获取社区反馈,我认为是非常好的模式。海致则是反过来,先做商业版本,再择机去考虑开源。各个公司和产品所处阶段和情况不同,所以采取了不同的路径,但最终可能都是商业加开源的模式。
赵晓马:数据治理一直是个难点,知识图谱、数据库、数据平台等要做好非常难,公司如何在行业中铸造竞争壁垒?您觉得公司的“护城河”在哪些地方?
杨娟:主要在技术、客户、团队、业务理解四个方面:首先,技术上,在产品架构设计上具有优越性,我们从一开始就采用底层技术和行业应用相隔离的策略,底层平台和业务应用呈现松耦合状态,保证了底层平台的通用性。其次,客户群给予产品非常好的磨练和反馈,金融和政府行业相对来讲科学技术水平比较高,对底层技术的要求也比较高,我们的产品在这两个行业打磨过,拿到能源、制造、交通和医疗的时候有很强的适应性,从先进行业打造出来的产品普适性会更强。第三,和最好的团队合作,包括和清华、北邮合作开发底层技术,此外,每个行业都有一个产品团队,这中间还包括行业专家,行业专家会基于技术产品去构建适用于特定行业的模型和场景,拉近了顶层产品和行业客户之间的距离,让客户能快速看到知识图谱的业务价值和合规性。第四,海致对To B产品业务运营有深度理解,体系比较全面。To B业务是一个综合体系,在整个体系里不可以有短板,技术,业务,销售,客户服务,交付运营,资本运作等各方面,每一个环节都很重要。
赵晓马:海致的对标公司是?在目标上,公司是去对标一个更先进的公司还是自己设立一个目标?
杨娟:我们现在和美国的Neo4j,TigerGraph有一定对标,都是聚焦在图的领域。公司目标上是希望能成为全世界范围内图计算领域的第一品牌。