一位知情的人偷偷表示,这家软件巨头正在开发一种网络卡,以确保数据在其服务器之间快速传输,替代 Nvidia 公司提供的网络卡。除了可能为微软节省资金外,该公司还希望新的网络设备能提高 Nvidia 芯片服务器的性能。
此举正值英伟达(Nvidia)人工智能芯片需求激增之际,却引发了一场激烈的讨论:人工智能芯片的需求激增会持续多久,英伟达的实力是否会因竞争对象纷纷推出人工智能芯片以及微软等公司采取一定的措施减少对AI芯片的依赖而受到削弱。
微软在联网方面的努力能够在一定程度上帮助 OpenAI,后者使用微软的服务器来制作大型人工智能模型。OpenAI 首席执行官山姆-阿尔特曼(Sam Altman)曾私下表示,担心在计算能力上比谷歌处于劣势。
虽然微软是 Nvidia 的顶级 GPU 客户之一,但它已采取一定的措施减少对这家芯片制造商的需求。微软已经开发出了自己的 Maia AI 服务器芯片,并将于今年安装到数据中心。它正在开发的新网卡也能大大的提升 Maia 芯片的性能。
网卡是数据中心的一项重要技术,旨在加快服务器之间的流量。当微软在其数据中心使用 Nvidia 制造的人工智能芯片时,服务器可能会因为移动开发人工智能(如 OpenAI)的客户所需的大量数据而超载。
微软首席执行官萨提亚-纳德拉(Satya Nadella)已任命曾与他人共同创办网络设备开发商瞻博网络(Juniper Networks)的普拉迪普-辛杜(Pradeep Sindhu)为网卡项目的负责人。一年前,微软收购了辛杜创办七年之久的服务器芯片初创公司 Fungible。
Sindhu 没有回应置评请求,Nvidia 的发言人也拒绝置评。微软发言人在一份声明中说:作为Azure基础设施系统方法的一部分,我们专注于优化堆栈的每一层。我们大家常常开发新技术以实现用户的需求,包括网络芯片。
亚马逊网络服务企业(Amazon Web Services)和谷歌(Google)在出租云服务器方面与微软存在竞争关系,它们也出于类似的原因开发了自己的人工智能芯片和一些自己的服务器网络设备。Fung 表示,虽然这一些企业依赖于英伟达™(Nvidia)的 GPU,但它们希望在自己建设的数据中心中使用各种 AI 芯片,而不仅仅是英伟达™(Nvidia)的芯片。
Nvidia公司表示,微软的网络组件可能会蚕食Nvidia公司的服务器网络设备销售额,而Nvidia公司的服务器网络设备销售额每年有望超过100亿美元。(Nvidia 预计将在本周三公布 2023 财年的收入为 588 亿美元)。这位直接知情人士说,微软的网卡与 Nvidia 的 ConnectX-7 网卡类似,该芯片开发商将 ConnectX-7 网卡与 GPU 一起销售。
微软的网卡开发可能需要一年多的时间。不过,如果成功,它将有利于在微软服务器上训练和运行模型的 OpenAI。OpenAI 是 ChatGPT 的创建者,它开发了世界上一些服务器最密集的软件。
这位人士说,OpenAI 的领导人私下讨论了他们在使用 Nvidia 服务器时遇到的服务器网络挑战,并与微软讨论了新网卡可能带来的帮助。新芯片可以缩短 OpenAI 训练模型所需的时间,并降低这一过程的成本。
在大型人工智能网络中,延迟至关重要,Fung 说。你不希望流量瓶颈导致延迟。(OpenAI 发言人没有回应置评请求)。
阿尔特曼非常担心公司未来开发和运营人工智能所需的服务器容量,因此他曾讨论过为一家新的芯片企业筹集数十亿美元。该项目每年将至少生产数千万颗 GPU,比 Nvidia 的产量高出许多倍。
微软的新芯片与微软开发的另一款服务器硬件不同,它被称为Azure Boost,可以卸载服务器上无关的计算工作负载,从而释放空间并提高性能。AWS 早一点的时候也推出了类似的技术 Nitro。
与此同时,AWS 还投资了别的类型的国产服务器网络技术,包括与 Nvidia 销售的 InfiniBand 类似的系统。AWS 负责计算和网络的副总裁戴夫-布朗(Dave Brown)去年告诉 The Information,AWS 的专有网络硬件可以连接其数据中心的 GPU 服务器,来提升它们的性能。
就在微软和其他云计算服务提供商试图减少对 Nvidia 的依赖的同时,这家芯片制造商也在采取对应的措施。它一直在构建自己的云服务,在大型云计算公司的数据中心内运行。这项名为 DGX Cloud 的服务允许 Nvidia 在某些情况下决定服务器的配置,甚至是它们使用的网络设备类型。