Llamafile 0.8 发布，支持 LLaMA3 和 Grok，F16 性能更快-Linuxeden开源社区

Llamafile 是 Mozilla 的 Ocho 小组在人工智能时代推出的一个非常有趣的项目。Llamafile 可以轻松运行和发布大型语言模型（LLM），这些模型自包含在一个文件中。Llamafile 以 Llama.cpp 为基础，可以轻松地将整个 LLM 作为单个文件发布，同时支持 CPU 和 GPU 执行。Llamafile 0.8 现已发布，将加入 LLaMA3 的行列，并提供其他模型支持和增强 CPU 性能。

Llamafile 0.8 是一个令人兴奋的版本，新增了对 LLaMA3、Grok 和 Mixtral 8x22b 的支持。

在重构了 tinyBLAS CPU 代码后，Mixtral 和 Grok 等专家混合（MoE）模型在 CPU 上的执行速度提高了 2 至 5 倍。在 Raspberry Pi 5 上的 F16 性能也提高了约 20%，在英特尔 Skylake 上的 F16 性能提高了约 30%，在苹果 M2 上的 F16 性能提高了约 60%。

Llamafile 0.8 发布，支持 LLaMA3 和 Grok，F16 性能更快

Llamafile 0.8 还改进了 CPU 功能检测和其他增强功能：
– 现已支持 LLaMA3
– 引入了对 Grok 的支持
– 引入了对 Mixtral 8x22b 的支持
– 引入了对 Command-R 模型的支持
– MoE 模型（如 Mixtral、Grok）在 CPU 上的运行速度提高了 2-5 倍
– F16 在 Raspberry Pi 5 上的运行速度提高了 20%（TinyLLaMA 1.1b 提示评估提高了 62 -> 75 托克/秒）
– 在 Skylake 上，F16 现在快了 30%（TinyLLaMA 1.1b 提示评估提高了 171 -> 219 托/秒）
– F16 在 Apple M2 上的运行速度提高了 60%（Mistral 7b 提示评估提高了 79 -> 128 tok/秒）
– 在创建 llamafile 时，增加在网页指南中覆盖聊天模板的功能
– 改进服务器中的标记符和语法高亮显示
– 改进了 CPU 功能检测

Llamafile 0.8 通过 GitHub 下载。我很快就会开发新的 Llamafile 基准测试。

转自 Llamafile 0.8 Releases With LLaMA3 & Grok Support, Faster F16 Performance – Phoronix

相关推荐