龙8long8,一窥Marvell 512T、800GbE 交换机内部
栏目:行业资讯 发布时间:2024-08-03
 今天,我们将看看一台横跨 64 个 800GbE 端口的大型交换机的内部。Marvell Teralynx 10 是一款 51.2Tbps 交换机,它将是我们在 2025 年 AI 集群中看到的一代。这是一款大型网络交换机,看起来很有趣。  Innovium 是这一代最成功的初创公司,进军超大规模数据中心。例如,2019 年,英特尔宣布将收购 Barefoot Networks,以获得以太网交

  今天,我们将看看一台横跨 64 个 800GbE 端口的大型交换机的内部。Marvell Teralynx 10 是一款 51.2Tbps 交换机,它将是我们在 2025 年 AI 集群中看到的一代。这是一款大型网络交换机,看起来很有趣。

  Innovium 是这一代最成功的初创公司,进军超大规模数据中心。例如,2019 年,英特尔宣布将收购 Barefoot Networks,以获得以太网交换机芯片。到英特尔 2022 年第四季度财报时,该公司宣布将剥离这项以太网交换业务。博通在商用交换机芯片业务中占有重要地位,而 Innovium/Marvell 已进军超大规模数据中心,而其他公司则投入了大量资金却失败了。

  每个接口都装有 OSFP 可插拔光学器件。这些器件往往比您习惯的 QSFP+/QSFP28 代器件要大一些。

  Marvell 带来了一些光学器件,因为在收购Inphi后,它还销售这些光学模块中的许多组件。我们已经多次讨论过这个问题,例如在Marvell COLORZ 800G 硅光子模块和下一代网络的 Orion DSP部分。这是可以使用这些光学器件的交换机类型。另一个方面是端口可以以 800Gbps 以外的速度运行。

  我们看到的很酷的东西之一是一些长距离光学模块。龙8long8手机登录这些模块可以在数百公里甚至更远的距离上实现 800Gbps 的速度。它们很酷,因为它们适合 OSFP 笼子,而且不需要使用业内使用多年的大型长距离光学盒。

  OSFP 对交换机还有另一个影响。由于 OSFP 模块可以有自己的集成散热器,因此笼子没有散热器。当我们拆开一些 100GbE 和 400GbE 交换机时,光学笼子需要有散热器,因为模块消耗的电量非常大。

  鉴于此交换机可以使用类似 1.8kW 的光学器件,并且我们有一个 500W 的交换机芯片,预计我们需要额定功率超过 2kW 的电源。

  我们将让人们在闲暇时阅读有关 Teralynx 10 的更多信息,但这里是我们之前展示过的早期功能图。

  与许多交换机一样,这款 Teralynx 10 交换机有一个专用的管理。有趣的是,这是基于 Marvell Octeon 的管理板。我们被告知其他交换机也可以使用 x86。

  不过,就在那之下,有一个你可能很容易忽略的功能。显然有一个 10Gbase-T 端口在内部作为管理接口暴露。

  另一个需要考虑的方面是交换机 PCB 的厚度。如果服务器主板这么厚,许多 1U 服务器设计将面临极大的散热挑战。

  在另一栋大楼里,Marvell 有一个实验室在运行这些交换机。公司暂时清理了实验室,以便我们拍摄交换机的运行情况。

  如今,在一个端口上生成 800GbE 流量并非易事,因为它比服务器上的 PCIe Gen5 x16 更快。看到这个设备在实验室里运行真是太酷了。我们当时购买了一个整洁的二手 Spirent 盒子,原本打算用它来进行 10GbE 测试,但 Spirent 拒绝提供媒体/分析师许可证。像这个 800GbE 盒子这样的设备贵得令人咋舌。

  该公司在实验室中还有一个更大的机箱,用于 100GbE 测试。作为交换机供应商,Marvell 需要这种设备来验证不同条件下的性能。

  为何选择51.2Tbps 交换机?因为有两股力量在推动这些 51.2T 交换机进入市场。第一是大家最热衷的话题 AI。第二也是功耗和基数影响。

  Marvell 推出的 Teralynx 10 延迟约为 500 纳秒,同时提供巨大的带宽。这种可预测的延迟,加上交换芯片的拥塞控制、可编程性和遥测功能,有助于确保大型集群能够保持最佳性能。让 AI 加速器闲置等待网络是一个非常昂贵的提议。

  另一个例子是基数。更大的交换机可以减少交换层数。这反过来又减少了连接集群所需的交换机、光纤、电缆等的数量。

  由于 Teralynx 10 可以处理 512 个基数,通过最多 512x 100GbE 链路进行连接,因此某些网络可以从需要交换缩减为仅需要两级。在相当大的 AI 训练集群规模下,这不仅可以节省资本设备,还可以节省大量电力。Marvell 向我们发送了这个示例,其中较大的基数可降低 1MW 以上的功耗。

  此外,Marvell 发送的幻灯片中还有这个。我们已经介绍了左侧,但在右侧我们可以看到一个插入了模块的交换机,顶部有一个有趣的冷却器从机箱中伸出。我们在内部概览中展示了巨大的散热器,这似乎是桌面原型的外观。

  最后,我们经常在网上和数据中心的照片中看到交换机的正面,甚至背面。但我们很少看到这些交换机的工作原理。在此要感谢 Marvell,它不仅让我们看到交换机的运行,还让我们将交换机拆开,直至硅片。

  Innovium(现为 Marvell 旗下子公司)是业内为数不多的与博通正面交锋并取得超大规模胜利的团队之一。我们已经看到其他大型硅片供应商在这一过程中失败。鉴于市场对人工智能集群中高基数、高带宽、低延迟交换的需求,Teralynx 10 很可能成为该公司自 Teralynx 7 以来最大的产品线。这个领域的竞争非常激烈。

  当然龙8long8,对于所有网络而言,还有更多层次。我们甚至可以对光学模块进行全面研究,更不用说软件、性能等了。不过,展示这些交换机内部发生的事情还是很酷的。