皇上,还记得我吗?我就是1999年那个Linux伊甸园啊-----24小时滚动更新开源资讯,全年无休!

Linux 6.17 将修复 AMDGPU 休眠功能,使大型 GPU 服务器无需再耗时约 50 分钟

虽然在 Linux 6.16 周期的后期,并且达到了为 Linux 6.17 排队的新 DRM 驱动程序功能材料的截止时间,但今天发出了一个额外的 drm-misc-next 拉取请求,其中包含下一个内核周期的一些最后一刻的内核图形驱动程序更改。推动这种额外拉动的是最近的 AMDGPU 系统休眠补丁。

今天的 drm-misc-next 拉取的头条新闻变化是整合了 AMD 补丁,以降低大型 AI/GPU 服务器休眠的系统内存要求。这些补丁和问题之前在 Phoronix 的 AMD Instinct 加速器中介绍过,具有如此多的 vRAM 暴露了 Linux 休眠问题

由于最新的 AMD Instinct 加速器能够看到 192GB 的设备内存,并且每台服务器最多有 8 个设备内存,所有这些设备内存都会导致 AMDGPU 驱动程序在休眠期间出现问题。在某些情况下,这会导致在创建休眠映像时没有足够的可用系统内存,而当它成功时,由于缓冲区对象的所有存档和还原,需要很长时间。

除了如果系统内存不足,休眠可能会失败之外,当一切正常时,它需要非常长的时间:

“对于正常休眠,GPU 不需要在解冻时恢复,因为它不参与写入休眠映像。在这种情况下,跳过 resume 可以减少休眠时间。

在具有 8 个 192GB VRAM 独立显卡、98% 的 VRAM 使用率和 1.7TB 系统内存的虚拟机上,这可以节省 50 分钟。

在最大化的 AMD Instinct 加速器服务器上使用这些补丁可以节省近一个小时。

Linux 6.17 将修复 AMDGPU 休眠功能,使大型 GPU 服务器无需再耗时约 50 分钟

那些用于彻底修改 AMDGPU 休眠处理的补丁是今天 drm-misc-next 拉取请求的一部分,也是这个额外拉取的动机。 Linux 6.17 的此拉取请求中还包含对不同代码段的一些内存泄漏修复、Nouveau 驱动程序的调度程序改进、Sitronix ST7567 支持、BOE NE14QDM面板支持以及其他最后一刻的更改。

转自 Linux 6.17 To Fix AMDGPU Hibernation So It Doesn’t Take ~50 Minutes On Large GPU Servers – Phoronix