llama.cppパラメータ完全リスト(2026年4月最新版)

llama.cpp パラメータ完全リスト(2026年4月最新版)

最終更新日: 2026年4月18日
対象バージョン: llama.cpp masterブランチ(最新コミットベース)
出典: ggml-org/llama.cpp GitHub 公式ドキュメント


はじめに

llama.cppは、ローカルLLM推論のためのC/C++実装です。主に3つのツールが含まれており、それぞれのCLIパラメータを体系的に解説します。

ツール 説明
llama-cli コマンドライン対話・テキスト生成クライアント
llama-server OpenAI互換REST APIサーバー
llama-completion バッチテキスト生成ツール

また、全ツールで共通するCommon ParamsSampling Params、さらに各ツール固有のパラメータが存在します。


0. パラメータの優先順位

パラメータは以下の順序で優先度が高くなります(上位が勝つ):

  1. コマンドライン引数(最高優先)
  2. 環境変数(例: LLAMA_ARG_THREADS
  3. Presetファイル内定義
  4. モデルファイルのメタデータ(最低優先)

1. Common Params(全ツール共通)

1.1 モデル読み込み関連

パラメータ 略称 説明 デフォルト
-m, --model FNAME 読み込むモデルファイルのパス (必須)
-mu, --model-url URL HuggingFaceからモデルをURLでダウンロード unused
-dr, --docker-repo REPO Docker Hubリポジトリからモデル(例: gemma3 unused
-hf, -hfr, --hf-repo USER/MODEL[:QUANT] HuggingFaceリポジトリ(例: ggml-org/GLM-4.7-Flash-GGUF:Q4_K_M)。QUANT省略時はQ4_K_Mがデフォルト。mmprojも自動ダウンロード unused
-hfd, -hfrd, --hf-repo-draft USER/MODEL[:QUANT] ドラフトモデルのHuggingFaceリポジトリ unused
-hff, --hf-file FILE HuggingFaceから特定のファイルを取得(–hf-repoのQUANTを上書き) unused
-hft, --hf-token TOKEN HuggingFaceアクセストークン 環境変数HF_TOKENから取得
--mlock システムにモデルをRAMに保持させる(スワップ/圧縮防止) 無効
--mmap, --no-mmap モデルのメモリマップの有無。mmapを無効化すると読み込みは遅くなりますが、pageouts(ページアウト)が減る可能性があります 有効
-dio, --direct-io, -ndio, --no-direct-io DirectIOの利用(利用可能な場合) 無効
--check-tensors モデルテンソルデータの値をチェック false
--override-kv KEY=TYPE:VALUE,... テンソル名パターンでバッファタイプを上書き。例: blk\.+\..*=f16,attn_*=bf16

1.2 コンテキスト・バッチ設定

パラメータ 略称 説明 デフォルト
-c, --ctx-size N プロンプトのコンテキストサイズ。0=モデルから読み込み 0
-n, --predict, --n-predict N 生成するトークン数。-1=無限大 -1
-b, --batch-size N ロジカル最大バッチサイズ(プロンプト処理) 2048
-ub, --ubatch-size N プリセット最小バッチサイズ(物理的最大バッチ) 512
--keep N 初期プロンプトから保持するトークン数。-1=全て保持 0
--swa-full Full-size SWAキャッシュを使用 false

1.3 CPU/スレッド関連

パラメータ 略称 説明 デフォルト
-t, --threads N 推論に使用するCPUスレッド数。-1=自動(物理コア数の半分) -1
-tb, --threads-batch N バッチ/プロンプト処理に使用するスレッド数。省略時は–threadsと同じ値 –threadsと同じ
-C, --cpu-mask M CPUアフィニティマスク(長整数)。例: 7 でCPU 0-1-2 “”
-Cr, --cpu-range lo-hi CPU範囲指定。例: 0-3
--cpu-strict <0\|1> 厳格なCPU配置を有効化 0
--prio N プロセス/スレッド優先度: low(-1), normal(0), medium(1), high(2), realtime(3) 0
--poll <0\|1> ワーク待機時のポーリングレベル(0=不要、1=使用) –pollと同じ
-Cb, --cpu-mask-batch M バッチ処理のCPUアフィニティマスク。省略時は–cpu-maskと同じ値 –cpu-maskと同じ
-Crb, --cpu-range-batch lo-hi バッチ処理のCPU範囲
--cpu-strict-batch <0\|1> バッチ処理の厳格なCPU配置 –cpu-strictと同じ
--prio-batch N バッチ処理のプロセス/スレッド優先度 0
--poll-batch <0\|1> バッチ処理時のポーリング –pollと同じ

NUMA最適化
--numa TYPE — 一部のNUMAシステム向け最適化。
types: distribute(全ノードに分散)、isolate(初期化ノードのみ)、numactl(numactlのCPUマップ使用)

1.4 GPU/Multi-GPU関連

重要: --n-gpu-layersはllama.cppにおいて最も重要なパラメータの一つです。これにより、GPU VRAMにロードするTransformerレイヤー数を制御できます。

パラメータ 略称 説明 デフォルト
-ngl, --gpu-layers, --n-gpu-layers N VRAMに格納するレイヤー数の上限 auto
-sm, --split-mode {none\|layer\|row} 複数GPUへのモデル分割方法: none=単一GPUのみ、layer(デフォルト)=レイヤーごとに分割+KV分散、row=GPU間で行方向に分割 layer
-ts, --tensor-split N0,N1,N2,... 各GPUにオフロードするテンソルの割合をカンマ区切りで指定。例: 3,1(1:3の比率)
-mg, --main-gpu INDEX メインGPUのインデックス。split-mode=noneではモデル用途、rowでは中間結果・KV用途 0
-fit, --fit [on\|off] メモリ不足時に未設定パラメータを自動的に調整し、VRAMに収まるように最適化 on(自動フィット有効)
-fitt, --fit-target MiB0,MiB1,... –fitの目標マージン(MiB)。例: 2048,1024 1024
-fitc, --fit-ctx N –fitによる最小コンテキストサイズ。VRAM不足時に自動縮小に使用 4096
-dev, --device <dev1,dev2,...> オフロードに使用するデバイス(カンマ区切り)
--list-devices 利用可能なデバイスの一覧を表示して終了
-ot, --override-tensor <pattern>=<type>,... テンソル名パターンでバッファタイプを上書き。例: attn.*=f16
--op-offload, --no-op-offload ホストテンソル演算をデバイスにオフロード true(有効)
-cmoe, --cpu-moe MoE(Mixture of Experts)全パラメータをCPUメモリに保持 無効
-ncmoe, --n-cpu-moe N MoEの最初のNレイヤーをCPUに保持

1.5 Flash Attention / SWA関連

パラメータ 略称 説明 デフォルト
-fa, --flash-attn [on\|off\|auto] Flash Attentionの有効化。性能向上に寄与 auto

SWA(Sliding Window Attention): --swa-full で全SWAキャッシュを有効化し、メモリ効率の最適化を図ります。

1.6 KV Cache / メモリ関連

パラメータ 略称 説明 デフォルト
-kvo, --kv-offload, -nkvo, --no-kv-offload KV cacheのVRAMオフロード。GPU VRAMが不足するときにCPU RAMへ自動フォールバック 有効
--repack, -nr, --no-repack weight repackingの有効化 有効
-ctk, --cache-type-k TYPE K KV cacheデータタイプ: f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1 f16
-ctv, --cache-type-v TYPE V KV cacheデータタイプ: 同上 f16
-dt, --defrag-thold N (非推奨) KV cacheデフラグメント閾値

1.7 RoPE スケーリング関連

パラメータ 説明 デフォルト
--rope-scaling {none\|linear\|yarn} RoPE周波数スケーリング方式 linear(モデル指定時)
--rope-scale N 最大コンテキスト倍率。例: N=2で元の2倍のコンテキストに拡張 モデル読み込み
--rope-freq-base N RoPE基本周波数(NTK対応スケーリング用) モデルから読み込み
--rope-freq-scale N RoPE周波数スケールファクター。N<1でコンテキスト拡大、N>1で縮小 1.0(モデル読み込み)
--yarn-orig-ctx N YaRN: モデルの元コンテキストサイズ
--yarn-ext-factor N YaRN: 外挿ミックスファクター。-1=自動、0=完全内挿 -1.0
--yarn-attn-factor N YaRN: sqrt(t)スケーリング/アテンションマグニチュード -1.0
--yarn-beta-slow N YaRN: 高補正ディメンション(alpha) -1.0
--yarn-beta-fast N YaRN: 低補正ディメンション(beta) -1.0

1.8 ロギング関連

パラメータ 説明 デフォルト
--log-disable ログ無効化 無効
--log-file FNAME ファイルにログ出力
--log-colors [on\|off\|auto] カラーログ出力。terminal検出時に自動判定 auto(terminal検出時自動)
-v, --verbose, --log-verbose 詳細ログ表示
-lv, --verbosity, --log-verbosity N ログ閾値: 0=generic、1=error、2=warning、3=info、4=debug 3(info)
--log-prefix ログメッセージにプレフィックスを付加 無効
--log-timestamps ログタイムスタンプ表示 無効
--offline オフラインモード(キャッシュのみ使用、ネットワークアクセス禁止)

1.9 その他のCommon Params

パラメータ 説明 デフォルト
-h, --help, --usage 使用法表示
--version バージョン情報表示
--license ライセンスと依存関係表示
-cl, --cache-list キャッシュ内のモデル一覧を表示
-e, --escape, --no-escape エスケープシーケンス処理 true(有効)
--perf, --no-perf 内部libllamaパフォーマンスタイミングの表示 無効

2. Sampling Params(全ツール共通)

Samplingパラメータは生成のランダム性と制御を調整します。順序は重要で、左から適用されます。

2.1 コアサンプリング

パラメータ 略称 説明 デフォルト
--samplers SAMPLERS サンプリング順序を;区切りで指定。デフォルト: penalties;dry;top_n_sigma;top_k;typ_p;top_p;min_p;xtc;temperature penalties;dry;top_n_sigma;top_k;typ_p;top_p;min_p;xtc;temperature
-s, --seed SEED 乱数シード。-1=ランダムシード(再現性なし) -1
--temp, --temperature N 温度パラメータ。低いほど決定論的、高いほど創造的。0.0〜2.0程度が推奨範囲 0.80
--top-k N Top-Kサンプリング。上位Nトークンのみを候補に。0=無効化 40
--top-p N Top-P(Nucleus)サンプリング。累積確率Pのトークンのみ。1.0=無効 0.95
--min-p N Min-Pサンプリング。最大確率×min-p以上のトークンを保持する最小確率フィルタ 0.05(有効)
--top-nsigma, --top-n-sigma N Top-N-Sigma: 平均±Nσの範囲外を除去する統計的サンプリング -1.0(無効)
--typical, --typical-p N Locally Typical Sampling: ローカル確率分布に基づく典型トークン選択 1.0(無効)

2.2 DRY サンプリング(重複防止)

パラメータ 説明 デフォルト
--dry-multiplier N DRYサンプリングの乗数。0=無効 0.0(無効)
--dry-base N DRYサンプリングの基本値 1.75
--dry-allowed-length N DRY: 許容長のトークン数 2
--dry-penalty-last-n N DRY: 最後にNトークンで繰り返しをペナルタイズ。-1=コンテキストサイズ全範囲 -1
--dry-sequence-breaker STRING DRY: シーケンスブレーカー文字列(’\n’, ‘:’, ‘”‘, ‘*’など)。”none”で全て無効化

2.3 アダプティブ・ダイナミック温度

パラメータ 説明 デフォルト
--adaptive-target N Adaptive-P: 目標確率。0〜1の範囲、負値=無効 -1.0(無効)
--adaptive-decay N Adaptive-P: デケイエ係数。低いほど反応的、高いほど安定 0.90
--dynatemp-range N ダイナミックTemperature範囲。例: 0.3で[0.5,1.1]の範囲にランダム変動 0.0(無効)
--dynatemp-exp N ダイナミック温度指数 1.0

2.4 Mirostat サンプリング

Mirostatは、生成中のperplexityを自動制御する高度なサンプリング手法です。

パラメータ 説明 デフォルト
--mirostat N Mirostatモード: 0=無効、1=Mirostat v1、2=Mirostat v2.0(推奨) 0(無効)
--mirostat-lr N Mirostat学習率(eta)。例: 0.1〜0.5が推奨 0.10
--mirostat-ent N Mirostatターゲットエンタピー(tau)。低いほど厳格、高いほど緩やか。5.0〜8.0が一般的 5.00

注意: Mirostat v1/v2を使用する場合、Top-K / Nucleus / Locally Typicalサンプリングは自動的に無効化されます。

2.5 その他のサンプリング

パラメータ 説明 デフォルト
--repeat-last-n N ペナルタイズする直前のNトークン。0=無効、-1=ctx-size全範囲 64
--repeat-penalty N リピートシーケンスへのペナルティ(反復抑制)。例: 1.0〜1.5。1.1が一般的な推奨値 1.0(無効)
--presence-penalty N 存在ペナルティ。出現済みトークンを追加で抑制 0.0(無効)
--frequency-penalty N 頻度ペナルティ。出現頻度の高いトークンを抑制 0.0(無効)
-l, --logit-bias TOKEN_ID(+/-)BIAS ロジットバイアス: トークンIDに対する確率補正
--ignore-eos EOS(End-of-Sequence)トークンを無視し、生成を継続 無効

3. llama-cli固有パラメータ

3.1 プロンプト/対話モード

パラメータ 略称 説明 デフォルト
-p, --prompt PROMPT 開始プロンプト(システムメッセージは–system-promptを使用)
-f, --file FNAME プロンプトファイル(対話ではなくファイル内容を使用) なし
-bf, --binary-file FNAME バイナリプロンプトファイル なし
-r, --reverse-prompt PROMPT 指定したプロンプト出現時に生成を停止。会話モードで再対話を返す
-st, --single-turn シングルターン(1回応答後終了)。–promptと併用不可 false
-cnv, --conversation, -no-cnv, --no-conversation 会話モード。特殊トークン・プレフィックス表示を抑制。chatテンプレート利用時は自動有効 chatテンプレート利用時は自動有効
-mm, --mmproj FILE マルチモーダルプロジェクトファイル(Visionモデル用)
--mmproj-offload, --no-mmproj-offload マルチモーダルGPUオフロード。オンボードメモリ/VRAMの確保に寄与 有効
--image, --audio FILE 画像・音声ファイル(マルチモーダルモデル用)。複数指定可

3.2 表示/ロギング

パラメータ 説明 デフォルト
--display-prompt, --no-display-prompt プロンプト表示の有無 true(表示)
-co, --color [on\|off\|auto] カラー出力(プロンプトと入力を区別して表示)。terminal検出時に自動判定 auto(terminal検出時)
--show-timings, --no-show-timings 各応答後にタイミング情報を表示 true(表示)
-sp, --special 特殊トークン出力を有効化 false

3.3 Chat / テンプレート

パラメータ 説明 デフォルト
-sys, --system-prompt PROMPT システムメッセージ(モデルのchat formatに依存)
-sysf, --system-prompt-file FNAME システムプロンプトファイル
--chat-template TEMPLATE Jinja形式カスタムチャットテンプレート。組み込み: llama3, chatml, deepseek, gemma, mistral-v3 モデルのメタデータから自動読み込み
--chat-template-file FILE カスタムJinjaファイルを読み込み
--jinja, --no-jinja Jinjaテンプレートエンジン使用の有無 有効(デフォルト)

サポートされている組み込みチャットテンプレート:
bailing, bailing-think, bailing2, chatglm3, chatglm4, chatml, command-r, deepseek, deepseek-ocr, deepseek2, deepseek3, exaone-moe, exaone3, exaone4, falcon3, gemma, gigachat, glmedge, gpt-oss, granite, grok-2, hunyuan-dense, hunyuan-moe, kimi-k2, llama2, llama2-sys, llama2-sys-bos, llama2-sys-strip, llama3, llama4, megrez, minicpm, mistral-v1, mistral-v3, mistral-v3-tekken, mistral-v7, mistral-v7-tekken, monarch, openchat, orion, pangu-embedded, phi3, phi4, rwkv-world, seed_oss, smolvlm, solar-open, vicuna, vicuna-orca, yandex, zephyr

3.4 マルチモーダル / Vision

パラメータ 説明 デフォルト
-mm, --mmproj FILE マルチモーダルプロジェクトファイル(Visionモデル用)
--mmproj-auto, --no-mmproj, --no-mmproj-auto モデルのマルチモーダル自動読み込みの有効/無効 auto
-otd, --override-tensor-draft <pattern>=<type>,... ドラフトモデルのテンソル名パターンでバッファタイプを上書き

3.5 Speculative Decoding(推論コードネーム)

パラメータ 説明 デフォルト
--draft, --draft-n, --draft-max N ドラフトトークン数。speculative decoding時のドラフト生成 16
-md, --model-draft FNAME ドラフトモデルファイル(speculative decoding用)
--spec-replace TARGET DRAFT TARGET=DRAFTを置換する(互換性がない場合の処理)

4. llama-server固有パラメータ

llama-serverはOpenAI互換REST APIを提供します。以下はCommon Params / Sampling Paramsに加えて追加されるパラメータです。

4.1 サーバー基本設定

パラメータ 説明 デフォルト
--host HOST リッスンするIPアドレス(例: 0.0.0.0は全インターフェース listening)。.sock付きの場合はUNIX socketとして動作 127.0.0.1
--port PORT ポート番号 8080
--reuse-port 複数ソケットが同ポートを使用可能に(SO_REUSEPORT) 無効
-np, --parallel N サーバースロット数。-1=自動。並列リクエストに対応 -1(自動)
-to, --timeout N HTTPタイムアウト(秒)。0=無限 600

4.2 エンドポイント / モニタリング

パラメータ 説明 デフォルト
--metrics Prometheus互換メトリクスエンドポイントを有効化 無効
--slots, --no-slots スロットモニターエンドポイント(/metrics/slots)を有効化 有効
-cb, --cont-batching, -nocb, --no-cont-batching Continuous Batching(動的バッチ)の有無。リクエスト処理効率の向上 有効

4.3 システムプロンプト / 会話関連

パラメータ 説明 デフォルト
-sys, --system-prompt PROMPT システムメッセージ(API利用時にも適用)
-sp, --special 特殊トークン出力の有無 false
-r, --reverse-prompt PROMPT 指定プロンプト出現時に生成を停止

4.4 マルチモーダル / Vision(llama-server追加)

パラメータ 説明 デフォルト
-mm, --mmproj FILE マルチモーダルプロジェクトファイルパス
--mmproj-auto, --no-mmproj, --no-mmproj-auto MMproj自動読み込み auto
--mmproj-offload, --no-mmproj-offload MMproj GPUオフロード 有効

以上、llama.cppの全パラメータ一覧でした。

本情報は2026年4月18日時点で最新の公式ドキュメントに基づいています。

コメント

タイトルとURLをコピーしました