AMD Instinct加速卡八卡1.5TB显存困扰Linux系统:无法休眠
1 周前

AI加速计算卡所配备的HBM高带宽内存(显存)容量正迅速增长,AMD和NVIDIA均已达到惊人的192GB,并即将提升至288GB。然而,这一进步给Linux系统带来了挑战。AMD工程师Sameul Zhang在最新的Linux补丁中指出,当系统配置多块AMD Instinct加速卡时,其超大容量显存会导致系统无法正常休眠。具体来说,若服务器安装八块单卡显存为192GB的AMD Instinct加速卡,总显存达到1.5TB,Linux系统将无法休眠。问题根源在于Linux处理GPU显存的方式,休眠时系统需将所有GPU显存卸载到内存,若显存过大,则创建的休眠镜像会超出系统内存容量限制。Sameul Zhang提出了减少休眠时所需复制内存容量的解决方案,但会导致休眠恢复时间延长,因此他又加入新补丁以缩短恢复时间。