(资料图片仅供参考)
在COMPUTEX 2023, NVIDIA 宣布NVIDIA DGX GH200,这标志着 GPU 的又一突破——加速计算,为最苛刻的巨型人工智能工作负载提供动力。除了描述 NVIDIA DGX GH200 体系结构的关键方面外,本文还讨论了如何使用NVIDIA Base Command实现快速部署,加快用户入职,并简化系统管理。GPU 的统一内存编程模型是过去 7 年来复杂加速计算应用取得各种突破的基石。
2016 年, NVIDIA 推出NVLink技术和带有 CUDA-6 的统一内存编程模型,旨在增加 GPU 加速工作负载的可用内存。从那时起,每个 DGX 系统的核心都是与 NVLink 互连的基板上的 GPU 复合体,其中每个 GPU 可以以 NVLink 的速度访问另一个的存储器。许多具有 GPU 复合体的 DGX 通过高速网络互连,形成更大的超级计算机,如NVIDIA Selene 超级计算机。然而,一类新兴的万亿参数的巨型人工智能模型要么需要几个月的训练,要么即使在当今最好的超级计算机上也无法求解。为了让需要一个能够解决这些非凡挑战的先进平台的科学家们获得力量, NVIDIANVIDIA Grace Hopper Superchip与 NVLink 交换系统,在 NVIDIA DGX GH200 系统中集成多达 256 GPU 。在 DGX GH200 系统中, GPU 共享内存编程模型可以通过 NVLink 高速访问 144 TB 的内存。与单个相比NVIDIA DGX A100 320 GB 系统, NVIDIA DGX GH200 通过 NVLink 为 GPU 共享内存编程模型提供了近 500 倍的内存,形成了一个巨大的数据中心大小的 GPU 。 NVIDIA DGX GH200 是第一台突破 NVLink 上 GPU 可访问内存 100 TB 障碍的超级计算机.
X 关闭
Copyright © 2015-2022 亚洲医疗网版权所有 备案号:京ICP备2021034106号-51 联系邮箱:5 516 538 @qq.com