Intel LLM Scaler vLLM 更新支持更多模型-Linuxeden开源社区

Intel 软件工程师们继续努力工作，致力于 LLM-Scaler 项目，将其作为在 Docker 容器化环境中运行 vLLM 的解决方案。一个基于 vLLM 的新 LLM-Scaler 测试版在夜间发布，支持运行更多大型语言模型。

自该项目在 8 月份推出 “LLM-Scaler 1.0” 以来，一直有频繁的更新，用于扩展 LLM 在 Intel GPU 上的覆盖范围，并暴露更多利用 Intel 图形硬件 AI 计算能力的功能。然而，版本命名方案仍然混乱，今天的测试版本是 “llm-scaler-vllm 测试版 0.10.2-b6″，尽管之前已经宣布了 “1.0”。

Intel LLM Scaler vLLM 更新支持更多模型

关于今天 llm-scaler-vllm 的 beta 更新，其变化包括：

– 支持 Qwen3-30B-A3B 的 MoE-Int4
– 支持 Bpe-Qwen 分词器
– 启用 Qwen3-VL 密集/MoE 模型
– 支持 Qwen3-Omni 模型
– 支持 MinerU 2.5
– 支持 whisper 转录模型
– 修复 minicpmv4.5 内存溢出问题和输出错误
– 启用 ERNIE-4.5-vl 模型
– 启用基于 Glyph 的 GLM-4.1V-9B-Base

对那些有兴趣通过这个 Docker 环境在 Intel GPU 上使用 vLLM 的人，可以在 GitHub 上找到这个新测试版本的详细信息。Docker 镜像可通过 intel/llm-scaler-vllm:0.10.2-b6 获取。

转自 Intel LLM Scaler vLLM Update Supports More Models – Phoronix

相关推荐