NVIDIA 发布 CUDA 13.1，引入新的 “CUDA Tile” 编程模型-Linuxeden开源社区

NVIDIA 刚刚发布了 CUDA 13.1，他们声称这是 “自 CUDA 平台问世二十年来最大的、最全面的更新。” CUDA 13.1 发布中最显著的新增功能是 CUDA Tile，这是一种基于瓦片（tile）的编程模型。

CUDA Tile 引入了基于瓦片的并行编程的虚拟 ISA，并且其层次高于单指令多线程（SIMT）。

NVIDIA 发布 CUDA 13.1，引入新的 "CUDA Tile" 编程模型

NVIDIA 将 CUDA Tile 描述为：

“随着计算工作负载的发展，尤其是在人工智能领域，张量已经成为一种基本的数据类型。NVIDIA 已开发出专门用于操作张量的硬件，例如 NVIDIA 张量核心（TC）和 NVIDIA 张量内存加速器（TMA），这些硬件现在已成为每一代新 GPU 架构的重要组成部分。

随着硬件变得更为复杂，需要更多的软件来帮助利用这些能力。CUDA Tile 抽象了张量核心及其编程模型，使得使用 CUDA Tile 编写的代码能够兼容当前和未来的张量核心架构。

基于瓦片（Tile）的编程方式允许你通过指定数据块，或称为瓦片，并定义在这些瓦片上执行的计算来编程你的算法。你不需要在元素级别上设置算法的执行方式：编译器和运行时会为你处理这些细节。”
…
CUDA Tile 的基础是 CUDA Tile IR（中间表示）。CUDA Tile IR 引入了一种虚拟指令集，使开发者能够以瓦片操作的方式原生地编程硬件。开发者可以编写更高层次的代码，在多代 GPU 上以最小的改动高效执行。

虽然 NVIDIA 并行线程执行（PTX）确保了 SIMT 程序的可移植性，但 CUDA Tile IR 通过原生支持基于瓦片的程序，扩展了 CUDA 平台。开发者专注于将他们的数据并行程序划分为瓦片和瓦片块，让 CUDA Tile IR 处理这些程序在硬件资源（如线程、内存层次结构和张量核心）上的映射。

通过提高抽象层次，CUDA Tile IR 使用户能够构建更高层次的硬件特定编译器、框架和领域特定语言（DSLs）用于 NVIDIA 硬件。CUDA Tile IR 对于瓦片编程的作用类似于 PTX 对于 SIMT 编程的作用。

关于 CUDA Tile 的更多细节可以访问developer.nvidia.com。

CUDA 13.1 的发布还提及其他亮点，包括绿色上下文的运行时 API 暴露、cuBLAS 中双精度和单精度的模拟支持，以及完全重写的 CUDA 编程指南。

转自 NVIDIA Releases CUDA 13.1 With New “CUDA Tile” Programming Model – Phoronix

相关推荐