在 NVIDIA 硬件上部署 vLLM 用于 LLM 推理和服务可以像 pip3 install vllm 这样简单。正如许多 AI/LLM Python 库一样,部署起来非常简单,通常可以直接在 NVIDIA 上“正常工作”。然而,在 AMD Radeon/Instinct 硬件上运行 vLLM 传统上意味着要么自己从源代码编译 vLLM,要么采用 AMD 推荐的方法,即使用包含预构建 vLLM 版本的 Docker 容器。现在终于有一个受认可的 Python 轮子,可以更容易地安装 vLLM 而无需 Docker 并利用 ROCm。
使用 pip install vllm 安装上游 vLLM 还没有那么简单,但已经非常接近:
pip install vllm==0.14.0+rocm700 –extra-index-url https://wheels.vllm.ai/rocm/0.14.0/rocm700
AMD 人工智能软件副总裁 Anush Elangova 今天在 X 上分享了这一好消息。希望 ROCm 支持不会太久,就能像从 PyPI 安装官方 vllm 一样容易。无论如何,这是朝着正确方向迈出的一步。

Linuxeden开源社区