皇上,还记得我吗?我就是1999年那个Linux伊甸园啊-----24小时滚动更新开源资讯,全年无休!

Linux 6.9 为有问题的 HBM 内存添加 AMD MI300 Row Retirement 支持

Linux 6.9 为有问题的 HBM 内存添加 AMD MI300 Row Retirement 支持

在即将到来的 Linux 6.9 内核周期中,EDAC(错误检测和纠正)和 RAS(可靠性、可用性和可维护性)驱动程序中增加了一些 AMD Instinct MI300。

这项工作包括调整 AMD EDAC 驱动程序以使用 AMD 地址转换库、MI300 对 ATL 库的支持、其他 MI300 RAS 新增功能,以及 MI300 硬件的一项新功能–行退役支持。

Linux 6.9 为有问题的 HBM 内存添加 AMD MI300 Row Retirement 支持

amd64_edac 驱动程序中的 MI300 行退役支持在该补丁中被概括为处理 MI300 上有缺陷/已退役的高带宽内存 (HBM):
“AMD MI300 系统具有片上高带宽内存。这种内存的错误率相对较高,而且不能像 DIMM 一样单独更换。

无法纠正的 ECC 错误会通过 AMD 延迟错误中断单独报告为延迟错误。每个报告的错误对应一个硬件错误。

可纠正的 ECC 错误通过 MCA 阈值分批报告。用户可根据自己的策略配置阈值限制。每个报告的可纠正错误代表达到阈值限制的单次发生。

AMD 设计人员目前的指导原则是,受 DRAM 行内 ECC 错误影响的内存应予以报废。应针对每个报告的 ECC 错误采取行动。

添加一个辅助函数,以便在 MI300 系统中应用此策略。

此功能和类似功能最好在单独的通用模块中处理。同时,为了简单起见,可在 AMD64 EDAC 中进行处理。

行退役支持补丁中的代码注释重申了在出现错误时退役该 DRAM 行中所有内存的意图:
“当 MI300 系统出现 DRAM ECC 错误时,建议退役该 DRAM 行中的所有内存。这适用于具有 DRAM 组的内存”。

AMD MI300 的最新工作可以在 Linux 6.9 中找到,因为这些补丁是 RAS.git 的 “edac-for-next “Git 分支的一部分。

转自 Linux 6.9 Adding AMD MI300 Row Retirement Support For Problematic HBM Memory – Phoronix

相关推荐

  • 暂无文章