
英特尔今日发布了 LLM-Scaler-vLLM 1.3 更新,扩展了可以在英特尔 Arc Battlemage 显卡上运行的 LLM 模型数组,该更新基于 Docker 部署 vLLM 的堆栈。
通过 Docker 和 GitHub 发布的新的 Intel llm-scaler-vllm 1.3 版本,在支持 Intel Arc Graphics 硬件的设备上增加了对八个新模型的支持:Qwen3-Next-80B-A3B-Instruct、Qwen3-Next-80B-A3B-Thinking、InternVL3.5-30B-A3B、DeepSeek-OCR、PaddleOCR-VL、Seed-OSS-36B-Instruct、Qwen3-30B-A3B-Instruct-2507 和 openai/whisper-large-v3。
除了这些模型外,还支持 PaddleOCR 模型和单独提到的 GLM-4.6v-Flash。现在还支持在 TP 4/8 上对 Qwen3-30B-A3B 使用 sym_int4,以及在 TP 16 上对 Qwen3-235B-A22B 使用 sym_int4。
LLM-Scaler-vLLM 堆栈已升级至 vLLM 0.11.1 和 PyTorch 2.9。通过 vLLM 升级,他们还启用了 CPU KV 缓存卸载、支持两种新方法的推测解码、实验性 FP8 KV 缓存以及其他增强功能。
此外,Intel LLM-Scaler-vLLM 1.3 还包含更多错误修复和其他改进。下载和所有详细信息请通过 GitHub 获取。
转自 Intel Releases LLM-Scaler-vLLM 1.3 With New LLM Model Support – Phoronix
Linuxeden开源社区