皇上,还记得我吗?我就是1999年那个Linux伊甸园啊-----24小时滚动更新开源资讯,全年无休!

PyTorch 2.10 发布,为 AMD ROCm 和 Intel GPU 带来更多改进

今天的 PyTorch 2.10 是这款广泛使用的深度学习库的最新功能更新。新的 PyTorch 发布继续改进对 Intel GPU 的支持,以及对 AMD ROCm 计算堆栈的支持,同时仍在为 NVIDIA CUDA 驱动更多增强。

PyTorch 2.10 for AMD ROCm 现在通过常规 GEMM 回退和 CK 启用分组 GEMM。此外,对 Microsoft Windows 上的 PyTorch 的 ROCm 支持也有所改进,支持 torch.cuda._compile_kernel,支持 load_inline,将 GFX1150/GFX1151 RDNA 3.5 GPU 添加到 hipblaslt 支持的 GEMM 列表,支持 scaled_mm v2,支持 AOTriton scaled_dot_product_attention,改进 ROCm 上点对点内核的启发式算法,支持 ROCm 上 fast_tanhf 的代码生成,以及其他改进。

Intel GPU 支持在 PyTorch 2.10 中也获得了多项改进。现在为 Intel GPU 提供了额外的 Torch XPU API,支持 ATen 运算符 scaled_mm 和 scaled_mm_v2,_weight_int8pack_mm 支持,以及 PyTorch CPP Extension API 中的 SYCL 支持现在允许在 Windows 上实现新的自定义运算符。此外还有一些 Intel 性能优化和其他改进。

PyTorch 2.10 中的 NVIDIA CUDA 支持也具备更多功能。PyTorch 2.10 中的 CUDA 支持模板内核,预编译内核支持,自动添加 CUDA 头文件,支持 cuda-python CUDA 流协议,CUDA 13 兼容性改进,支持嵌套内存池,Thor 上的 CUTLASS MATMULs 以及其他功能。

PyTorch 2.10 还带来了对 torch.compole()的 Python 3.14 支持,以及对 Python 3.14 自由线程构建的实验性支持。此外还有 Torch Inductor 中的组合内核水平融合降低内核启动开销,调试改进以及不同的量化增强。

PyTorch 2.10 发布,为 AMD ROCm 和 Intel GPU 带来更多改进

通过 GitHub 获取 PyTorch 2.10 的下载和更多详细信息。

转自  PyTorch 2.10 Released With More Improvements For AMD ROCm & Intel GPUs – Phoronix