基于自己开发的服务器搭建的这套GPU集群已经在自己课题组里上线运行了一段时间(硬件如p4~9所示),跨节点并行计算性能完全符合预期,同时很稳定,至今从未出现过“掉卡”问题,比一些基于“大厂准系统”的8卡4090机器稳定多了。
目前只上了3个计算节点,24块V100 SXM2 16GB,还不是“完全体”,主要原因是机房capacity不足(白嫖机房还要啥自行车),等几个月后学校的新机房建成,也许有机会进一步扩展。
“完全体”有3种规模,架构分别如p1~3所示。其中p2的144-GPU配置是最理想的状态——从架构上来说,平衡了集群规模和通信效率;从实施来说,刚好用满3个2x10kW容量的标准机柜;从成本来说,IB连接线可以全部采用廉价的DAC铜缆。对于大多数搞科学计算研究的实验室来说,有一套由144块V100组成的、架构类似于初代NVIDIA DGX SuperPOD(核心特性是GPU-Direct RDMA)的、支持全机组高效并行的GPU集群,就可以做“很多事情”了。
这套集群中,CPU、GPU、IB HCA、IB交换机、IB DAC铜缆都是二手的,计算节点是由我“二次开发”的,有大量的定制配件。所有硬件都是公费采购,计算节点每台4万CNY,IB交换机每台8000CNY,IB DAC铜缆根据长度从70~280CNY不等。144-GPU的“理想配置”,不到80万CNY就能搞定,对于绝大多数科学计算和 #AI4S 应用,性能都可以达到一台HGX-H100-8GPU服务器的3-4倍,而后者目前的单价超过250万CNY;也就是说,此方案在硬件层面的性价比是H100的10倍以上。
硬件细节和具体应用场景下case-by-case的测试以后有空再发文细说。几个月前就想发文讨论GPU加速在第一性原理计算以及一些AI4S应用中的实际性能,顺便介绍我自己二次开发的服务器,但是由于各种原因一直推迟,不同平台的benchmark数据倒是积累了快1000条了……
文章评论