llama.cpp 開発最前線:2026年4月18日時点のアップデートまとめ
はじめに
llama.cpp の開発スピードには、目を見張るものがあります。2026年4月15日から18日にかけて、なんと30回を超えるコミットとリリースが行われており、まさに激動の数日間となっています。日々のアップデートがどのように進んでいるのか、最新の情報をまとめました。
本日の最新リリース: b8838 (2026年4月18日)
まずは、本日リリースされたばかりの最新バージョンをご紹介します。
このバージョンは、前日のコミット群をすべてマージした最新のビルドとなっています。
注目すべき主要なアップデート (4月17日)
ここ数日の動きの中で、特に技術的に重要なアップデートをピックアップしました。
GPU・バックエンドの最適化
- Metal (Apple Silicon) の進化:
ROLLオペレーションの実装 (b8815)- Metal バックエンドに
ROLLオペレーションが追加されました。これにより、RoPE (Rotary Position Embedding) などの位置埋め込み処理を GPU 上で直接、高速に実行することが可能になります。
- Metal バックエンドに
- CUDA: メモリ管理の高度化: LRU 方式のグラフ削除を採用 (b8832)
- CUDA グラフのメモリ管理に LRU (Least Recently Used) 方式が採用されました。これにより、VRAM 使用量の最適化と、メモリエラーの防止が図られています。
- OpenCL: Adreno 対応の強化:
q5_Kカーネルの追加 (b8822)- Adreno GPU 向けの
q5_0、q5_K、q8_0の行列演算 (matmul/gemv) カーネルが追加され、対応の幅が広がりました。
- Adreno GPU 向けの
- ggml-webgpu: FlashAttention のリファクタリング (b8833)
- FlashAttention のエンコード処理のリファクタリングが行われ、
soft_maxやreg_tile accumulationをf32に変更することで、精度の向上とコンパイラ警告の修正がなされました。
- FlashAttention のエンコード処理のリファクタリングが行われ、
新しいモデル・ハードウェアへの対応
- Gemma4 モデルのサポート開始: (b8828)
- ついに Gemma4 モデルの検出ロジックが実装されました。
- Android arm64 の正式サポート: (b8831)
- CI/CD パイプラインに Android arm64 ビルドが統合され、公式リリースとしての配布が正式に開始されました。
- RISC-V 向け最適化の進展: (b8814)
- RISC-V 向けに、128-bit の Quantum Vector Dot 実装が追加されました。これにより、
iq2_xsやiq3_sといった量子化演算の効率が大幅に向上しています。
- RISC-V 向けに、128-bit の Quantum Vector Dot 実装が追加されました。これにより、
システム・コア部分の改善
- GGML: グラフ再利用システムの導入 (b8816)
- 計算グラフのキャッシュと再利用を効率化するための、新しいバージョン管理ベースの判定システムが追加されました。
- ライブラリのリネーム:
libcommon$\to$libllama-common(b8829)- より明確な識別のため、ライブラリ名が
libllama-commonへとリネームされました。
- より明確な識別のため、ライブラリ名が
- その他の改善:
- Hexagon DSP (Snapdragon) 向けの行列演算最適化 (b8824) や、
get_tensorにおけるマルチセグメント読み取りへの対応 (b8837) など、多方面でブラッシュアップが進んでいます。
- Hexagon DSP (Snapdragon) 向けの行列演算最適化 (b8824) や、
その他の更新履歴
b879x シリーズ (4月15日 – 16日)
- b8799 (4月15日):
autoparserにおいて、JSON_NATIVE モードでの per-call マーカーのサポートを追加。パースの柔軟性が向上しました。 - b8798 (4月15日):
llama_context作成後にn_ctxを正しく読み戻せるよう修正。
b88xx シリーズ (4月16日 – 17日) の主な更新
| ビルド | 日付 | 内容 |
|---|---|---|
| b8825 | 4月17日 | cmake の glob を使用したソースファイル収集の効率化 |
| b8823 | 4月17日 | アーキテクチャごとに単一の llm_build を使用するよう変更 |
| b8821 | 4月17日 | サーバー機能におけるメディアマーカー取得の修正 |
| b8813 | 4月16日 | ggml-cpu: AVX-512 を用いた Q5_K_M 量子化の実装追加 |
| b8812 | 4月16日 | Metal/AVX-512 向けの CLIP イメージエンコーダー最適化 |
| b8808 | 4月16日 | サーバー機能のクエリパラメータに関する URL デコードのバグ修正 |
4月の主要な機能更新 (4月1日 – 14日)
今月は、以下のような重要な機能追加も行われています。
* Hexagon: Snapdragon 環境のサポート追加および行列演算の最適化。
* CUDA: Flash Attention (Head Dimension 512) のサポート。
* サーバー機能: --clear-idle フラグによる KV キャッシュ削除の制御機能など。
今後の注目ポイント
今後の進化として、以下の動向に注目が集まります。
* ROLL op の展開: Metal で実装された機能が他のバックエンドへどのように広がっていくか。
* RISC-V の更なる進化: 量子化処理の実装が進展中。
* モバイル・GPU 最適化の継続: Android 対応の拡充や、各種 GPU バックエンド(CUDA/OpenCL/Metal)の継続的な改善。
リファレンス
2026年4月18日 更新

コメント