大数据风口崛起的MongoDB在大模型时代继续飞

 提示:点击图片可以放大
来源:优游ub8平台    发布时间:2024-06-16 09:01:01

  今年6月,X Eva App上线了首批网红明星“克隆人”,大受欢迎。据新闻媒体报道,由“半藏森林”本人参与训练的克隆人上线万次交互对话。

  X Eva是由小冰公司推出的一款AI应用,在这个App中人类能找到自己喜欢的明星红人的克隆人,与之进行音视频通话、朋友圈交互,还可以一起达成目标。X Eva的成功离不开人工智能等技术的大量使用,同时也有MongoDB的一份功劳。X Eva的后台使用的正是MongoDB数据库,它的高可扩展性、高可用性和灵活性为保证X Eva APP的稳定、易用奠定了很好的基础。

  小冰公司研发总监苏之阳博士介绍,作为一款面对海量用户的互联网应用,X Eva App对底层的数据库有着很严苛的要求:首先,它要能支撑海量数据,X Eva存储的记录数以亿条计,高可扩展性必不可少;其次,X Eva是一个与用户频繁互动的App,一定要非常流畅,这就从另一方面代表着要支持高并发、低延时;第三,作为一款To C的应用,每周都有新版本发布,其迭代速度很快,这在某种程度上预示着后台数据库要足够灵活。

  MongoDB很好地满足了X Eva的这些需求。MongoDB的分片集群架构使得其能支持高并发,并能够准确的通过需求随时扩缩容。即使面对上亿条记录的存储需求,也可以轻松应对,甚至无需专职运维人员。MongoDB是一个文档型数据库,采用的是JSON格式,可读性非常好,一个新手也可以很快上手。而且数据格式非常灵活,这给研发人员带来很大方便。比如,X Eva在刚上线时没有粉丝管理功能,为了支持新功能需要在底层存储新增字段,而这对MongoDB数据库来说非常简单。

  “MongoDB让我们几乎不用关心底层的数据存储问题,包括存储的容量、表的大小、数据的存储位置等,大大简化了运维。同时,MongoDB简单的编程接口、灵活的数据结构和对事务的支持对研发人员很友好,大幅度的提升了研发人员的研发效率。”苏之阳表示。

  小冰公司是众多应用MongoDB企业的一个代表。一直以来MongoDB作为一款简单、易用、灵活扩展的分布式文档数据库深受开发者的喜爱。而MongoDB之所以能如此深受开发者认可的背后源于这款数据库独特的设计理念:为开发者而生。

  “MongoDB是一款真正由开发者设计、服务于开发者的数据库。”MongoDB北亚区高级副总裁苏玉龙在日前举行的MongoDB.local北京站大会上表示。苏玉龙背后的背景板的两边正是大写的“LOVE YOUR DEVELOPERS”,凸显了MongoDB公司对开发者的重视。

  他说,当年MongoDB公司之所以创立,主要是因为创始人在开发“低代码”产品时需要一个数据库的组件来提供数据存储服务,而传统的关系型数据不能够满足需求。他们只能自己来开发,当时的目标就是要开发出一个研发人员不懂SQL也能使用的数据库。

  “可以说, MongoDB 从被开发的第一天起就将开发者置于产品设计的中心。这些年来,简化数据处理、提高开发者效率就一直是MongoDB研发的指路明灯。” 苏玉龙说。

  实际上,多年来MongoDB公司正是秉承服务开发者,帮助开发者解决实际问题,最大限度地释放开发者潜力的这一初心,一直在不断丰富MongoDB的功能。众所周知,MongoDB是以NoSQL数据库出道,但MongoDB并不满足于只是一个普通的NoSQL数据库。为此,作为通用数据库,MongoDB在功能上不断丰富和增强。从MongoDB 4.0开始,MongoDB终于实现了对NoSQL的跨越,开始支持事务处理这些以往只有传统关系型数据库才有的功能。同时,MongoDB在企业级安全功能上也持续增强。

  伴随着MongoDB功能的慢慢地加强,其在市场上得到了积极的反馈,一批基于传统数据库的应用开始向MongoDB迁移。以荣获2023 年MongoDB 亚太地区创新奖的中国移动为例,其消息推送系统原来采用的是Oracle数据库,换成MongoDB后,数据库服务器从50台减少到12台,性能还提高了80%,总系统的成本得到大大节省。

  同时,MongoDB在商业上也收获了巨大的成功。2017年MongoDB在纳斯达克上市,是美国近30年内唯一一家上市的数据库厂商。上市以后的MongoDB长期处在快速地增长之中,在截止于7月31日的2024财年第二季度,实现收入4.238亿美元,同比增长40%,超过了第一季度的营收3.68亿美元、增长率29%的业绩表现。在更早些的2023财年,MongoDB实现了全年47%的增长。今天,MongoDB全球商业客户已超越4.5万家,在全球经济发展形势下行的当下,MongoDB的这份成绩无疑非常亮眼。

  在MongoDB公司的成长过程中,MongoDB Atlas不得已提。Atlas是MongoDB于2016年推出的数据库云服务,由MongoDB自己负责运营,目前已经在AWS、Azure、谷歌云等云落地。可以说,它的推出让MongoDB插上了腾飞的翅膀,目前Atlas已经是MongoDB最大的收入来源。MongoDB 2023财年的财报显示,Q4营收中,Atlas的营收已经占到65%。

  MongoDB Atlas营收的增长离不开MongoDB的持续投入,MongoDB也一直在不断强化Atlas的功能,用以使用户得到满足的云上创新需求。以当下大火的生成式AI应用为例。大语言模型(LLM)让人们看到生成式AI的潜力,也引发大量生成式AI应用的开发热潮,但大语言模型都会存在的“幻觉”的问题,以及信息更新不及时等问题制约了其真正落地。

  要解决这样一些问题,办法之一是以向量形式存储数据,然后经过测量向量之间的相似性来找出相关结果,再与任务一起提交给LLM,最后得到一个更为准确的答案。为此,一些企业使用专用的向量数据库来存储数据。然而,在现有的技术堆栈上添加向量数据库,不仅导致管理工作变得更复杂,需要对研发人员进行额外的培训,同时,还带来了延时和数据的一致性等挑战。

  针对这一市场需求,MongoDB宣布在Atlas上新增向量搜索引擎功能Atlas Vector Search。有了它,研发人员和数据科学家可以直接用MongoDB中的数据,同时仍然使用他们习惯的工具、语言和库,来存储向量并进行向量搜索,从而为各种新工作负载提供支持,比如文本搜索、图像搜索、比较以及高度个性化的产品推荐等。

  据MongoDB北亚区首席技术官林涛介绍,仅在过去6个月已经有数百家企业基于Atlas来创建AI应用。比如,某汽车厂商就基于MongoDB数据库来构建生成式AI应用,用以对车辆故障做多元化的分析。在这个应用中利用MongoDB在数据结构上的灵活性来保存车辆的所有信息,包括车辆的原始信息、改装信息、维修信息,及出现故障后的声音信息、图像信息等,在车辆出现故障后与车主进行互动,对故障做定位,并提供修理建议。

  “在整一个完整的过程中,借助MongoDB Atlas的平台就能够实现,不需要借助第三方平台,这就是MongoDB所追求的,为开发者提供一个简单易用的开发工具和开发平台。”林涛说。

  实际上,正如林涛所言,经过多年的打磨,今天的MongoDB Atlas慢慢的变成了一个面向现代应用的开发者数据平台,通过文档模型和统一API能支持OLTP、时序数据、全文检索、数据分析、向量搜索、流式数据等各种业务需求。

  向量搜索只是MongoDB Atlas最近新增的众多功能之一,在不久前MongoDB用户大会纽约站上MongoDB Atlas推出的其他新功能也需要我们来关注,包括:

  1.MongoDB Atlas Search Nodes可让用户指定一个专用的节点,独立于其数据库专门完成搜索工作,以此来实现工作负载隔离、资源优化和性能大规模提升。

  苏玉龙介绍,为帮助企业用好Atlas,MongoDB还在全球宣布推出了两个计划,一个是MongoDB Atlas 行业计划,它为客户提供MongoDB专家主导的架构设计审阅、增强型解决方案以应对该行业挑战的技术合作伙伴关系。另一个是 “AI创新者计划”(MongoDB AI Innovators Program),为正在开发AI应用的组织提供MongoDB Atlas使用积分,借助MongoDB合作伙伴ECO的合作机会及丰富的产品上市推广活动,加快其产品上市步伐。

  MongoDB公司一边在大力推动Atlas云服务的创新,一边也在持续打磨MongoDB数据库这一立身之本。目前MongoDB最新的版本已经演进到7.0,不久前已经公开发布,其中新增了不少让人眼前一亮的功能。

  还记得在去年的MongoDB World大会上宣布推出的备受关注的可查询加密(Queryable Encryption)功能吗?MongoDB内置的加密功能使组织能够在数据受保护的情况下,查询和使用敏感数据,在高度敏感的应用程序工作流程,诸如财务交易和分析医疗记录,降低数据外泄风险。如今在MongoDB 7.0该功能已经正式可用。

  “分片键顾问”也是MongoDB 7.0新增的功能之一。众所周知,MongoDB的高扩展性就来自其分片技术,但如何分片比较考验用户,MongoDB 7.0能根据访问模式来提供分片的建议,从而让用户都能够更轻松、更快速地进行分片。同时,MongoDB 7.0在分片的数据段的自动合并上也做了大幅的优化,进而提升了性能。

  当然,MongoDB 7.0的性能优化不仅体现在分片,新版MongoDB在常用的排序上性能就提升了90%,同一个复制集的join操作上性能也提升了30倍,还有不同集群之间的同步功能上也有改进。

  和此前的版本相比,MongoDB 7.0还有一个亮点是在时序数据的处理上。如何对时序数据来进行灵活修改一直是时序数据库的一个挑战。如今在MongoDB 7.0能轻松实现基于任意字段对时序数据来进行删除和修改。

  MongoDB 7.0中与安全相关的还有一个改进是能轻松实现基于用户权限来规范其可读的数据,比如,让不同用户在同一个视图上看到不同的数据,从而避免为不同用户开发不同视图。另外,MongoDB还有些新功能也需要我们来关注,包括:为使用基础设施即代码(IaC)在AWS上部署MongoDB Atlas,用Kotlin构建服务器端应用程序提供更多的编程语言支持,以及全面推出的PyMongoArrow库,让用户更高效地使用Python做数据分析。

  这些新功能的推出进一步体现了MongoDB的企业使命——将研发人员喜爱的工具集成到单一开发者数据平台中来满足研发人员的需求,全面助力研发人员更快、更轻松地构建应用程序。

  市场上的数据库迁移工具很多,几乎每个数据库厂商都会推出数据库迁移工具来帮助用户从其他数据库迁移到自己的数据库,但大多是同类数据库之间的迁移。而Relational Migrator的不同之处在于它指向的不是NoSQL数据库,而是传统的关系数据库,比如Oracle、MySQL等市场主流数据库,这也表明MongoDB要做通用数据库的决心。

  “现代应用程序的复杂性逐年攀升,比如,需要更加个性化、更快的响应能力、始终在线、更大规模以及更加智能,和传统数据库相比,MongoDB满足这些需求时有着非常明显的优势。”苏玉龙在接受媒体采访时表示。

  显然,这正是MongoDB面向传统数据库推出迁移工具的底气所在。苏玉龙介绍,MongoDB在中国市场受欢迎程度也在不断升高,中国慢慢的变成了下载量最高的国家之一。借助于云服务商,MongoDB正在为众多中国用户的业务提供支持。

  据悉,目前,MongoDB已经与阿里云、腾讯云和火山引擎开展了合作,通过他们公司能够订阅MongoDB在中国提供原厂支持的数据库云服务。其中阿里云与MongoDB合作最早,从2019年双方达成合作开始至今已经实现了8倍的营收增长。

  “每个时代的应用程序都有这个时代的特征,MongoDB就是专门面向研发人员、为现代应用程序而设计的一款能提高开发效率、降低构建成本的新一代数据库。”苏玉龙说。