2024-08-23 06:33

一家芯片公司,猛追英伟达

3.5万

文章来源:半导体行业观察

来源:内容编译自nextplatform。


图片来源:由无界AI生成
图片来源:由无界AI生成


当前的 AI 训练和一些 AI 推理集群有两个网络。后端网络将计算引擎组(通常是 GPU 加速器,通常是 Nvidia 的加速器)相互连接,以便它们可以共享工作和数据。前端网络将计算引擎的 CPU 主机相互连接、连接到存储以及连接到外部世界。

InfiniBand 已逐渐成为后端网络的主导,而以太网则倾向于用于前端网络。Arista Networks 和 Cisco Systems 等公司也希望在升级前端网络的同时,在后端占有一席之地。

思科在其最近的财务报告中表示,其 Silicon One ASIC 在后端 AI 集群网络试验中得到了一定程度的应用,但它也看到企业在准备部署 AI 训练和推理系统时升级其系统和前端网络。

Arista 现在在其客户中看到了类似但略有不同的模式,因为它正在等待 2025 年 AI 网络的以太网热潮。过去两年来,Arista 一直在重新调整其产品线,以迎接这一热潮,并且像思科一样,它是超级以太网联盟的创始冠军,该联盟的明确目标是让以太网取代 AI 集群中的 InfiniBand——这或许是一种意想不到的副作用,在传统的 HPC 模拟和建模以及数据分析和存储集群中也是如此。

我们回顾了 Arista 最近的财务业绩,以进行观察。我们还想简要介绍一下 Arista 为在其本土 AI 领域与 InfiniBand 竞争而构建的 Etherlink 系列交换机。Arista 是我们数据中心的 13 大公共供应商之一,我们将其用作衡量该生态系统财务健康状况的指标。


首先,我们来谈谈数字,然后我们再谈谈 Arista 客户正在进行的转变,他们从去年年底和今年年初对 Etherlink 产品的试用,到最近的试点,再到预计在今年年底和明年的生产。

第二季度,Arista 的产品收入增长 12.8% 至 14.2 亿美元,而其服务业务增长 35.3% 至 2.671 亿美元。软件订阅占销售额的 17.6%,增长 24.7% 至 3040 万美元。软件和服务(主要是硬件和软件产品的技术支持)合计销售额为 2.975 亿美元,比去年同期增长 34.2%。

总体而言,Arista 的销售额为 16.9 亿美元,增长 15.9%。营业收入增长 32%,达到 6.996 亿美元,净收入增长 35.3%,达到 6.654 亿美元,这一数字非常惊人,高于平常的 39.4%。在最近几个季度之前,Arista 的净收入一直保持在 30% 左右,但最近几个季度,Arista 的净收入开始腾飞。所有这些现金(当然是税后现金)帮助 Arista 将其现金储备增加到 62.7 亿美元,比去年同期增长了 1.6 倍。


Arista 拥有雄厚的财力,可以在 AI 网络领域与思科和 Nvidia 的 Spectrum-X 以及 Quantum InfiniBand 一较高下,我们完全预料到这将会是一场激烈的竞争。正如我们之前报道的那样,我们认为,在 xAI 决定不在 Oracle Cloud Infrastructure 云上使用租用的 GPU 容量之后,Nvidia 已经通过其 Spectrum-X 以太网获得了该 xAI 集群 100,000 个 Nvidia H100 GPU 集群的后端网络。Juniper Networks正在被 Hewlett Packard Enterprise 收购,该公司获得了该 xAI 集群前端以太网网络的交易。因此,Arista 没有分得一杯羹。

但 AI 领域还有其他大鱼。Arista之前曾谈到这样一个事实,即它在 Meta Platforms 的两个巨型 GPU 集群之一上拥有后端网络,每个集群都有 24,576 个 Nvidia H100 GPU,用于 AI 训练运行的矩阵数学运算。其中一个集群具有用于后端的 400 Gb/秒 InfiniBand 互连,另一个集群使用基于 Broadcom 的 Jericho 2c+、Tomahawk 4 和 Tomahawk 3 ASIC 的模块化和固定交换机组合。Arista 首席执行官 Jayshree Ullal 表示,Meta Platforms 和微软预计将在 2024 年和 2025 年成为超过 10% 的客户,我们认为两家公司都将购买大量 Arista 设备用于 AI 集群以及将他们的其他服务器连接在一起以运行应用程序的 Clos 网络,或者就微软而言,将其作为 Azure 云上的云切片出售。

“我只想提醒大家我们是如何接近 2024 年的,包括第四季度,”Ullal 在讨论第二季度财务状况的电话会议上告诉华尔街分析师。“去年,我们进行了试验。规模很小——并不重要。今年,我们肯定会进行试点。一些 GPU——你们已经在一些客户发布的公开博客中看到过这一点——已经从几万增加到 24,000 个,并朝着 50,000 个 GPU 的方向发展。明年,我认为其中许多 GPU 的数量将达到几万,目标是 100,000 个 GPU。所以我认为明年更有希望。其中一些可能会在今年实现。但我认为我们已经非常投入——从试验到试点,试验的数量为数百个。今年,我们的 GPU 数量达到了数千个。但我不会只关注第四季度。我会关注全年,然后说,是的,我们已经达到了数千个。因此,我们预计今年人工智能的收入占总收入的比例将只有个位数。但我们真的、真的预计明年的收入将达到每年 7.5 亿美元或更多。”

Ullal 表示,Arista 赢得了五份与未具名超大规模提供商和云计算构建商进行试验的合同中的四份,并希望明年将这一比例提高到五份。

与此同时,Arista 发现大型企业和二级服务提供商正在采取行动升级其网络。那些拥有 100 Gb/秒以太网设备的人现在正在考虑 200 Gb/秒、400 Gb/秒甚至 800 Gb/秒的设备。那些使用传统 10 Gb/秒和 40 Gb/秒网络的人正在考虑 100 Gb/秒或 200 Gb/秒。

Arista 的另一个有趣的业务领域是那些将工作负载转移到云端的企业,现在他们“对公共云感到失望”,正如 Ullal 所说,他们希望建立新的基础设施,将这些工作负载转移到自己的数据中心或主机托管设施中,大概是为了省钱。而 Arista 的园区交换机业务一直在增长,给竞争对手思科带来了一定程度的困扰。


但是,由于 AI 和少量 HPC 推动着每季度超过 30 亿美元的网络销售额(其中约 85% 是 InfiniBand),因此 AI 是 Arista 非常渴望进攻的真正目标。它希望从我们期望在企业中部署的具有数十个 GPU 的中等集群一直到拥有 100,000 个 GPU 的强大集群,并着眼于 UEC 一年前推出时为自己设定的 100 万个端点设计目标。

以下是 Arista 从网络角度对 AI 前景的看法。首先,它声称其 Etherlink 7060X 交换机可以提供 64 个以 800 Gb/秒运行的端口或 128 个以 400 Gb/秒运行的端口,这些固定端口设备非常适合互连几个计算引擎机架,这些引擎可以是 GPU 或其他类型的引擎,通常统称为 XPU:


最新的 7060X 交换机基于 Broadcom Tomahawk 4 和 Tomahawk 5 ASIC。

现在,对于拥有数百个运行 AI 训练的 XPU 的大型集群,Arista 建议使用单个模块化 7800R4 交换机,该交换机具有 576 个以 800 Gb/秒运行的端口或 1,152 个以 400 Gb/秒运行的端口,并在 XPU 之间提供单跳,不需要在 GPU 端口上进行拥塞控制或自适应路由。(如果您对前端网络使用相同的交换机,则可能需要这样做。)像这样。


显然,上图显示的 XPU 数量不正确。当前的 7800R 交换机基于 Broadcom 的 Jericho 2c+ 和 Jericho 3-AI 交换机芯片。

如果您想要进一步扩展,Arista 于今年 6 月推出了 7700R 分布式 Etherlink 交换机,它采用叶/主干网络并将其折叠成准模块化外形,并允许将其作为具有单跳的单个设备进行管理。(我们强烈怀疑这些“虚拟”单跳在 DES 盒内有几个实际的物理跳,就像它们在模块化交换机内一样。)


如您所见,Etherlink DES 设置具有叶子和主干,并提供了此架构的规模。7700R 基于 Jericho 3-AI 芯片。

Arista 表示,单层 Etherlink 拓扑可以支持超过 10,000 个 XPU,而双层拓扑可以在单个结构中支持超过 100,000 个 XPU。当未来有兼容 UEC 的 DPU 可用时,Arista 表示它将支持这些 DPU,因为它们可以卸载交换机和集群主机节点上的拥塞控制和自适应路由功能,以提高网络性能——就像 Nvidia 已经对 Spectrum-X 所做的那样。7800R4-AI 和 7700R4 DES 交换机自 6 月发布以来一直在进行客户测试,预计将在今年下半年上市。但是,正如 Ullal 所说,预计明年将推出 AI 集群。

如果 Arista 收购 DPU 制造商或从头开始创建自己的 DPU,请不要感到惊讶。

与此同时,Arista 可以与潜在的 AI 客户合作,升级他们的前端网络,为 AI 做好准备,就像思科所做的那样。

参考链接

https://www.nextplatform.com/2024/08/21/arista-banks-on-the-ai-network-double-whammy/


本文链接:https://www.aixinzhijie.com/article/6846514
转载请注明文章出处

评论
登录 账号发表你的看法,还没有账号?立即免费 注册
下载
分享
收藏
阅读
评论
点赞
上一篇
下一篇