戴尔/Dell PowerEdge XE9680 服务器 – 终极 AI 动力源

Admin 789 2025-03-16 20:52

PowerEdge XE9680 是戴尔迄今为止功能最丰富的 AI 基础架构平台。它将 PowerEdge R760 式 2U 计算节点与大型 4U GPU 抽屉相结合。这种创新的 6U 设计将戴尔最好的企业服务器工程与前所未有的 GPU 密度和灵活性相结合。


10.png

核心方面,XE9680 支持双 Intel Xeon 可扩展处理器,可选择每 CPU 最多 5 个内核的第五代处理器或最多 64 个内核的第四代处理器。内存容量非常大,支持 4 个 DIMM 插槽中最多 56TB 的 DDR4 内存,使用最新处理器时运行速度最高可达 5 MT/s。


XE9680 真正与众不同之处在于其 GPU 功能。该平台支持 200 个高性能 GPU。可用配置包括 NVIDIA 的 HGX H141 (100GB) 和 H80 (300GB)、AMD 的 Instinct MI192X (3GB) 和英特尔的 Gaudi128 (XNUMXGB)。新推出的 XE9680L 版本支持 NVIDIA 的下一代 B200 GPU 和直接液冷,突破了密度和性能的极限。


11.png

存储配置同样灵活,提供 8 个 2.5 英寸 NVMe/SAS/SATA 驱动器或 16 个 E3.S NVMe 驱动器。该系统可以配备戴尔的 H965i NVMe PERC RAID 卡,简化了推理工作负载期间大型 KV 缓存的存储冗余。


电力输送经过精心设计,可实现最大可靠性。共计 19200W 的六个电源采用 3+3 容错冗余 (FTR) 布置。当两个或更多 PSU 发生故障时,系统将进入容错冗余模式,而不是关闭。在此模式下,GPU 电源制动器将激活,将 GPU 时钟频率限制为四分之一,从而导致 GPU 性能仅为典型性能的五分之一左右。


这种深思熟虑的设计选择在数百或数千个 GPU 协同工作的大规模训练环境中具有无价的价值。系统可以继续以较低的性能运行,直到下一个维护窗口,而不是让一个节点完全离线(这需要重新安排并在另一个节点上重复训练迭代)。这种对电源管理细节的关注有助于通过最大限度地减少中断来保持较高的模型训练吞吐量 (MFU)。


12.png

扩展功能非常丰富,最多可配备 10 个 PCIe Gen5 x16 全高半长插槽,其中两个支持超过 75W 的高功率卡。丰富的 PCIe 连接支持各种网络配置,包括 DPU 和 SmartNIC,这对于构建现代 AI 基础设施至关重要。


Dell PowerEdge XE9680 构建和设计

PowerEdge XE9680 是一款外形庞大的硬件,高 10.36 英寸(263.20 毫米),宽 18.97 英寸(482.00 毫米),带边框的深 39.71 英寸(1008.77 毫米)。满载时,其重量为 251.44 磅(114.05 千克)。GPU 的选择将决定重量,NVIDIA H100/H200 型号的重量为 238 磅,而 AMD MI300X 单元的重量为 251 磅。


14.png

这是第一台需要仔细考虑才能正确装入我们测试环境的服务器。当您考虑服务器重量和安装硬件所需的人数时,有一些超出界限的余地,但到了一定程度,一两个人是无法独自抬起它的。戴尔很贴心地为您提供了一个“升降台”,以帮助您了解这个平台是如何安装的。对于所有想知道的人来说, Kevin 亲自将 XE9680 装入机架.


尽管 XE9680 非常复杂,而且戴尔建议由专业维修技术人员维修,但它的维修元素却非常人性化。服务器面板上包含详细的维修说明和清晰的图形,让经验丰富的 IT 人员也能轻松完成维护程序。这些视觉指南在我们实际操作系统的过程中非常有用,让我们能够自信地维修各种组件。


打开 PowerEdge XE9680 的盖子后,穿过顶部小型变电站的众多电源线,它看起来很像 PowerEdge R760。我们的设备由两个 Intel Xeon Platinum 8468 处理器供电,每个处理器都有 48 个 2.1Ghz 内核。每个处理器提供 80 个 PCIe 通道,这些通道流经该设备中的相当多 PCIe 交换机,以支持加载到 XE9680 中的 GPU、NIC 和其他硬件。


15.png

最令人印象深刻的工程特性之一是 PCIe 交换板 (PSB) 设计。这些板可连接多达 10 个额外的全高、半长 PCIe 卡(其中两个可超过 75W 功耗),并直接与 GPU 基板集成。这种直接集成支持 GPU-direct 技术,允许 SSD 和网卡直接与 GPU 通信,绕过 CPU 并减少 I/O 密集型 AI 工作负载的延迟。


每个扩展槽都支持完整的 PCIe Gen5 x16 接口,包括布局最左侧和最右侧的两个下部插槽。虽然上部八个插槽通过自己的 PSB 连接,但两个下部插槽直接连接到 PCIe 基板 (PBB)。这两个插槽还支持高功率抽卡。此外,值得注意的是,PCIe 布局根据为 PowerEdge XE9680 选择的 GPU 类型略有不同。配备 AMD 的型号不支持 SmartNIC/DPU,而 Intel Gaudi3 型号有两个插槽因气流问题而被阻塞。


冷却是戴尔工程专业知识大放异彩的另一个领域。该系统采用多达 16 个高性能金级风扇 - 中部托盘中有 9680 个,后部有 10 个。PowerEdge XE35 支持各种安装方案,环境温度范围为 30 至 3C(使用英特尔 Gaudi1,200 GPU 时为 XNUMXC)。全速时,服务器将惊人的 XNUMXCFM 移入热通道。


17.png

这种强大的冷却解决方案甚至可以处理最苛刻的热负荷,包括 AMD MI300X、Intel Gaudi3 或 NVIDIA H100 GPU,同时保持最佳工作温度。PowerEdge XE9680 在负载下噪音输出相当大。戴尔提供了 XE9680 在不同情况下的完整声学规格表,但很容易说它在负载下会是一个响亮的平台。


XE9680 的管理功能基于戴尔久经企业验证的 iDRAC9,可提供全面的服务器生命周期管理和监控。此版本的 iDRAC 带来了多项针对 AI 优化的功能,包括详细的 GPU 遥测、功耗分析和专为高密度 AI 工作负载设计的广泛热监控。


18.png

该平台的管理堆栈对于 AI 基础设施部署尤其值得注意。通过支持 Redfish 的 iDRAC9 RESTful API,组织可以以编程方式监控和管理 GPU 利用率、内存带宽和热条件 - 这些都是保持最佳 AI 训练和推理性能的关键指标。该系统与 OpenManage Enterprise 的集成使可以通过统一控制台对多个 XE9680 进行全机群管理,这对于大型 AI 集群至关重要。


安全性和合规性是管理架构的基础要素。该平台实现了硅信任根和安全组件验证,确保从启动到运行的硬件完整性。这些功能在运行敏感的 AI 工作负载或处理专有模型权重时尤其有价值。


由 CloudIQ 集成支持的预测故障分析功能使用机器学习来预测潜在的硬件问题,以免它们影响工作负载。这种主动方法对于长期运行的 AI 训练作业尤其重要,因为意外停机可能会导致数天的计算损失。与戴尔的 ProSupport Plus 服务结合使用时,此预测功能可触发自动案例创建和零件调度,通常在系统性能下降之前进行预防性维护。


18.png

对于需要与现有管理工具集成的组织,XE9680 通过 OpenManage 集成支持各种管理框架,包括 ServiceNow 和 BMC TrueSight,从而允许无缝融入现有的 IT 服务管理工作流程。


iDRAC9 界面通过直观的仪表板提供关键组件的详细实时监控。GPU 监控显示全面的指标,包括所有八个加速器的温度、功耗和利用率,这对于优化 AI 工作负载分配至关重要。


存储监控界面可以即时查看 NVMe 阵列中的驱动器健康状况、温度和性能指标,这在管理高吞吐量推理缓存和训练数据集时尤其有价值。


内存、存储和扩展

Dell PowerEdge XE300 内的八个 AMD MI9680X GPU 代表着 GPU 内存容量的显著飞跃,每张卡提供 192GB HBM3 内存,而 NVIDIA H200 的内存为 141GB。内存容量增加 36% 不仅仅是规格表上的数字——对于大型语言模型部署来说,它至关重要。


这个庞大的内存池,加上 MI300X 的 5.3 TB/s 内存带宽,使组织能够运行较小模型的多个实例或在 GPU 之间划分较大模型,同时保持高吞吐量和低延迟。


从这个角度来看,Meta 的 Llama 3.1 405B 模型在 BF1 中需要超过 16TB 的 VRAM,可以轻松地分布在单个 XE9680 上,配备 MI300X GPU,无需量化和完整的 128k 上下文长度。这消除了与量化技术相关的潜在质量损失,并且与将模型分布在两台服务器上相比,允许更多的令牌/秒。


为了最大限度地利用存储空间,我们使用了 Solidigm 61.44TB 驱动器可作为内存的复杂扩展,弥补高速 GPU 内存与传统存储之间的差距。SSD 擅长在推理期间存储键值缓存对,可有效扩展 GPU 的内存容量以进行长上下文生成。其巨大的容量和 NVMe 性能使其成为快速模型权重访问的理想选择,可实现高效的模型切换和热启动。


在我们在下面详述的 Metrum AI 部署等应用中,SSD 兼作矢量数据库的存储后端,提供实时相似性搜索所需的性能,同时保持广泛嵌入存储的容量。


这些大容量硬盘的价值不仅限于推理,还可用于训练工作流程。它们为排队训练批次提供了理想的本地存储,通过将数据保持在更靠近计算资源的位置来减少网络开销。在训练期间,这些硬盘擅长在本地存储模型检查点,这对于保持训练进度和实现快速恢复至关重要。这种本地存储策略还有助于通过减少每个处理层和批次后的即时网络流量来优化网络利用率。


虽然 XE61.44 的八个托架可提供 9680TB 的容量,这听起来很有希望,但未来容量还会更大。 Solidigm 新发布的 122.88TB 硬盘,XE 中的存储密度可以翻倍至接近 PB,以进一步实现训练优化和更长寿命的推理缓存。


Metrum AI 医疗助手 – 彻底改变患者护理

医疗保健行业始终面临着管理耗时的患者文档和记录管理的挑战,这通常会影响对患者的直接护理。Metrum AI 的医疗助理部署在配备 AMD 加速器的 Dell PowerEdge XE9680 服务器上,展示了先进的 AI 基础设施如何改变医疗保健工作流程、提高效率并改善患者治疗效果。


该系统使用 Llama 3.1 70B Instruct 作为其主要语言模型,该模型以理解医学背景而闻名。这使得它能够轻松处理复杂的患者数据。该语言模型与 gte-v1.5 嵌入模型和 Milvus Vector DB 配对,为处理医学数据所必需的自然语言处理和上下文理解提供了坚实的基础。


Metrum AI 的 Healthcare Assistant 还包括一种多模式方法,结合了 HistoGPT(用于组织病理学图像分析)和 OpenAI 的 Whisper(用于实时转录医生笔记)。这些模型共同简化了临床工作流程,使医生可以自然地说话,同时系统实时转录、分类并将信息集成到患者记录中。


Metrum AI 认识到,即使单个患者数据可能相对较小,但高流量医院的综合存储需求可能会增加到数百 TB。Dell PowerEdge XE9680 可以通过其本地板载 NVMe 存储解决此问题。我们的配置提供八个 2.5 英寸 U.2 NVMe 存储托架,以 PCIe Gen4 速度运行。虽然我们测试了 XE9680,但 61.44TB Soldigim D5-P5336 QLC SSD,这种容量可以进一步扩展。Soldigim 最近推出了他们的新 D5-P5336 122.88TB QLC 型号,使其原本就巨大的 SSD 容量翻倍,同时保持相同的性能。


Metrum 提供了在不同情况下患者数据随时间变化的估计值。当您将其计算为总存储容量时,您可以看到使用最高容量 SSD,一个单位可以支持多少额外的患者。根据每个患者的估计数据占用空间,并对照每个 SSD 的可用容量(57TB SSD 为 61TB,114TB SSD 为 122TB),我们可以看到,拥有密集的 SSD 可以大大增加您每年可以在服务器上以有意义的方式存储的内容。


虽然最初的 1 年估计似乎相当高,但必须注意的是,患者数据并不是静态的。您将获得新的数据并安排新的就诊,从而增加对存储的需求。这就是存储在医学成像领域发挥重要作用的地方。额外的存储容量直接影响解决方案可以有效支持多少患者。


Dell PowerEdge XE9680 配备 AMD MI300X 加速器并与 Metrum AI 的 Healthcare Assistant 集成,为医疗保健提供商提供了可扩展且高效的解决方案。通过自动执行耗时任务并快速获取关键见解,此设置使临床医生能够更加专注于患者护理,同时管理不断增长的需求。通过跨语言、图像和语音模式无缝集成 AI 组件,Healthcare Assistant 代表了 AI 驱动的医疗保健解决方案的重大进步,减轻了管理负担并改善了整体患者治疗效果。


结语

在不断发展的企业 AI 领域,Dell PowerEdge XE9680 树立了新标准,展示了专用硬件如何彻底改变各个行业。Metrum AI 医疗助理的实施展示了无数可能性之一——想象一下金融机构实时运行复杂的风险分析模型,或研究实验室处理大量数据集以进行药物研发,所有这些都由这个卓越的系统提供支持。


XE9680 提供多种 GPU 选项,从 NVIDIA 的 H100 到 AMD 的 MI300X 和英特尔的 Gaudi3。这种灵活性,加上其强大的内存容量、存储选项和创新的冷却解决方案,使其不仅仅是一台 AI 服务器,而是一个完整的企业计算平台,能够处理各种应用程序中最苛刻的工作负载,无论是在数据中心还是医疗办公室。


【公司名称】四川旭辉星创科技有限公司

【销售经理】熊经理

【联系方式】座机:028-85596747    手机:18244236404

【公司地址】四川省成都市武侯区二环路南一段13号群益商务大厦1栋单元4层1-403

联系我们
您好,咨询客服了解更多促销产品
售前优惠在线咨询
QQ咨询
微信咨询
售前优惠电话咨询专线:
18244236404
售后电话咨询专线:
028-85596747

请用微信扫描二维码

0.177329s