HGX H800

NVIDIA HGX H800,
云端超级计算机实例即将到位

想要拥有机器学习与人工智能强劲的计算性能?
你来对地方了


NVIDIA HGX H800
专为大规模HPC和AI 工作负载而设计



快速、灵活的基础设施以实现最佳性能

基于Kubernetes的云原生平台,您可以享受裸金属的优势,而无需增加基础架构的开销,我们负责处理所有繁重的Kubernetes操作,包括驱动程序管理、控制台扩展,您只需专注于本职工作。

卓越的网络架构,采用NVIDIA InfiniBand

我们的 HGX H800 分布式训练集群采用轨道优化设计,使用 NVIDIA Quantum-2 InfiniBand 网络,支持使用NVIDIA SHARP 进行网络内收集。

轻松迁移现有工作负载

蓝耘针对开箱即用的NVIDIA GPU加速工作负载进行了优化,使您能够轻松地运行现有工作负载,几乎不需要或者只需要进行最小程度的更改。无论您使用SLURM还是容器技术,我们都提供易于部署的解决方案,让您能够在更少的基础设施管理上完成更多的工作。

用于模型训练的HGX H800

先进的分布式训练集群

蓝耘的HGX H800基础设施可以在同一 InfiniBand Fat-Tree 非阻塞结构下扩展到
数个GPU,从而提供大规模的高性能和深度支持的模型训练加速器。

我们的基础设施旨在解决艰巨的人工智能/机器学习和高性能计算挑战。通过我们的
裸金属Kubernetes方法、高容量数据中心网络设计、高性能存储解决方案等,您可
以获得性能提升和成本节约等诸多优势。

蓝耘的HGX A800基础设施
蓝耘NVIDIA HGX A800超级计算机集群采用NVIDIA InfiniBand NDR网络和经过优化的设计

HGX H800网络性能

使用NVIDIA INFINIBAND技术构建的非阻塞
GPUDIRECT结构,避免训练性能的不稳定
蓝耘NVIDIA HGX H800超级计算机集群采用NVIDIA InfiniBand NDR网络和经过
优化的设计,支持在网络内使用NVIDIA SHARP进行数据收集。

训练AI模型成本极高,我们的设计经过仔细审查,确保您的训练实验充分利用合适
的技术,以最大程度优化计算成本。

HGX H800部署支持

对于本地部署感到困惑?不知道如何优化您
的训练设置?对其他云服务提供商的选项感
到迷惑不解?

蓝耘提供一切您所需的一站式解决方案,以大规模运行优化的分布式训练,同时配
备行业领先的工具,如Determined.AI和SLURM。

蓝耘对HGX A800部署支持
蓝耘HGX A800网络性能,高度可配置的计算与响应式自动扩展

用于推理的HGX H800

高度可配置的计算与响应式自动扩展
每个模型都是独一无二的,它们的计算需求也不尽相同。通过可定制的配置,蓝耘
提供了根据经济效益鼓励扩展的能力,使推理工作负载能够得到合理的配置。

HGX H800存储解决方案

灵活的存储解决方案,无流入或流出费用

蓝耘Cloud上的存储与计算分开管理,提供全面的NVMe、HDD和对象存储选项,
以满足您的工作负载需求。

在我们的全NVMe共享文件系统层级中,每个卷可达到近10,000,000 IOPS的性能,
或者您可以利用我们的NVMe加速对象存储提供的功能,从同一存储位置提供所有
计算实例所需的数据。

蓝耘HGX A800存储解决方案
准备好使用HGX H800了吗?