英特尔发布 LLM-Scaler-vLLM 1.3，支持新的 LLM 模型-Linuxeden开源社区

英特尔今日发布了 LLM-Scaler-vLLM 1.3 更新，扩展了可以在英特尔 Arc Battlemage 显卡上运行的 LLM 模型数组，该更新基于 Docker 部署 vLLM 的堆栈。

通过 Docker 和 GitHub 发布的新的 Intel llm-scaler-vllm 1.3 版本，在支持 Intel Arc Graphics 硬件的设备上增加了对八个新模型的支持：Qwen3-Next-80B-A3B-Instruct、Qwen3-Next-80B-A3B-Thinking、InternVL3.5-30B-A3B、DeepSeek-OCR、PaddleOCR-VL、Seed-OSS-36B-Instruct、Qwen3-30B-A3B-Instruct-2507 和 openai/whisper-large-v3。

除了这些模型外，还支持 PaddleOCR 模型和单独提到的 GLM-4.6v-Flash。现在还支持在 TP 4/8 上对 Qwen3-30B-A3B 使用 sym_int4，以及在 TP 16 上对 Qwen3-235B-A22B 使用 sym_int4。

LLM-Scaler-vLLM 堆栈已升级至 vLLM 0.11.1 和 PyTorch 2.9。通过 vLLM 升级，他们还启用了 CPU KV 缓存卸载、支持两种新方法的推测解码、实验性 FP8 KV 缓存以及其他增强功能。

此外，Intel LLM-Scaler-vLLM 1.3 还包含更多错误修复和其他改进。下载和所有详细信息请通过 GitHub 获取。

转自 Intel Releases LLM-Scaler-vLLM 1.3 With New LLM Model Support – Phoronix

相关推荐