llama.cpp 開発最前線:2026年4月18日時点のアップデートまとめ

llama.cpp 開発最前線:2026年4月18日時点のアップデートまとめ

はじめに

llama.cpp の開発スピードには、目を見張るものがあります。2026年4月15日から18日にかけて、なんと30回を超えるコミットとリリースが行われており、まさに激動の数日間となっています。日々のアップデートがどのように進んでいるのか、最新の情報をまとめました。

本日の最新リリース: b8838 (2026年4月18日)

まずは、本日リリースされたばかりの最新バージョンをご紹介します。

このバージョンは、前日のコミット群をすべてマージした最新のビルドとなっています。


注目すべき主要なアップデート (4月17日)

ここ数日の動きの中で、特に技術的に重要なアップデートをピックアップしました。

GPU・バックエンドの最適化

  • Metal (Apple Silicon) の進化: ROLL オペレーションの実装 (b8815)
    • Metal バックエンドに ROLL オペレーションが追加されました。これにより、RoPE (Rotary Position Embedding) などの位置埋め込み処理を GPU 上で直接、高速に実行することが可能になります。
  • CUDA: メモリ管理の高度化: LRU 方式のグラフ削除を採用 (b8832)
    • CUDA グラフのメモリ管理に LRU (Least Recently Used) 方式が採用されました。これにより、VRAM 使用量の最適化と、メモリエラーの防止が図られています。
  • OpenCL: Adreno 対応の強化: q5_K カーネルの追加 (b8822)
    • Adreno GPU 向けの q5_0q5_Kq8_0 の行列演算 (matmul/gemv) カーネルが追加され、対応の幅が広がりました。
  • ggml-webgpu: FlashAttention のリファクタリング (b8833)
    • FlashAttention のエンコード処理のリファクタリングが行われ、soft_maxreg_tile accumulationf32 に変更することで、精度の向上とコンパイラ警告の修正がなされました。

新しいモデル・ハードウェアへの対応

  • Gemma4 モデルのサポート開始: (b8828)
    • ついに Gemma4 モデルの検出ロジックが実装されました。
  • Android arm64 の正式サポート: (b8831)
    • CI/CD パイプラインに Android arm64 ビルドが統合され、公式リリースとしての配布が正式に開始されました。
  • RISC-V 向け最適化の進展: (b8814)
    • RISC-V 向けに、128-bit の Quantum Vector Dot 実装が追加されました。これにより、iq2_xsiq3_s といった量子化演算の効率が大幅に向上しています。

システム・コア部分の改善

  • GGML: グラフ再利用システムの導入 (b8816)
    • 計算グラフのキャッシュと再利用を効率化するための、新しいバージョン管理ベースの判定システムが追加されました。
  • ライブラリのリネーム: libcommon $\to$ libllama-common (b8829)
    • より明確な識別のため、ライブラリ名が libllama-common へとリネームされました。
  • その他の改善:
    • Hexagon DSP (Snapdragon) 向けの行列演算最適化 (b8824) や、get_tensor におけるマルチセグメント読み取りへの対応 (b8837) など、多方面でブラッシュアップが進んでいます。

その他の更新履歴

b879x シリーズ (4月15日 – 16日)

  • b8799 (4月15日): autoparser において、JSON_NATIVE モードでの per-call マーカーのサポートを追加。パースの柔軟性が向上しました。
  • b8798 (4月15日): llama_context 作成後に n_ctx を正しく読み戻せるよう修正。

b88xx シリーズ (4月16日 – 17日) の主な更新

ビルド 日付 内容
b8825 4月17日 cmake の glob を使用したソースファイル収集の効率化
b8823 4月17日 アーキテクチャごとに単一の llm_build を使用するよう変更
b8821 4月17日 サーバー機能におけるメディアマーカー取得の修正
b8813 4月16日 ggml-cpu: AVX-512 を用いた Q5_K_M 量子化の実装追加
b8812 4月16日 Metal/AVX-512 向けの CLIP イメージエンコーダー最適化
b8808 4月16日 サーバー機能のクエリパラメータに関する URL デコードのバグ修正

4月の主要な機能更新 (4月1日 – 14日)

今月は、以下のような重要な機能追加も行われています。
* Hexagon: Snapdragon 環境のサポート追加および行列演算の最適化。
* CUDA: Flash Attention (Head Dimension 512) のサポート。
* サーバー機能: --clear-idle フラグによる KV キャッシュ削除の制御機能など。


今後の注目ポイント

今後の進化として、以下の動向に注目が集まります。
* ROLL op の展開: Metal で実装された機能が他のバックエンドへどのように広がっていくか。
* RISC-V の更なる進化: 量子化処理の実装が進展中。
* モバイル・GPU 最適化の継続: Android 対応の拡充や、各種 GPU バックエンド(CUDA/OpenCL/Metal)の継続的な改善。

リファレンス


2026年4月18日 更新

コメント

タイトルとURLをコピーしました