llama.cpp パラメータ完全リスト(2026年4月最新版)
最終更新日: 2026年4月18日
対象バージョン: llama.cpp masterブランチ(最新コミットベース)
出典: ggml-org/llama.cpp GitHub 公式ドキュメント
はじめに
llama.cppは、ローカルLLM推論のためのC/C++実装です。主に3つのツールが含まれており、それぞれのCLIパラメータを体系的に解説します。
| ツール |
説明 |
llama-cli |
コマンドライン対話・テキスト生成クライアント |
llama-server |
OpenAI互換REST APIサーバー |
llama-completion |
バッチテキスト生成ツール |
また、全ツールで共通するCommon Params、Sampling Params、さらに各ツール固有のパラメータが存在します。
0. パラメータの優先順位
パラメータは以下の順序で優先度が高くなります(上位が勝つ):
- コマンドライン引数(最高優先)
- 環境変数(例:
LLAMA_ARG_THREADS)
- Presetファイル内定義
- モデルファイルのメタデータ(最低優先)
1. Common Params(全ツール共通)
1.1 モデル読み込み関連
| パラメータ |
略称 |
説明 |
デフォルト |
-m, --model FNAME |
– |
読み込むモデルファイルのパス |
(必須) |
-mu, --model-url URL |
– |
HuggingFaceからモデルをURLでダウンロード |
unused |
-dr, --docker-repo REPO |
– |
Docker Hubリポジトリからモデル(例: gemma3) |
unused |
-hf, -hfr, --hf-repo USER/MODEL[:QUANT] |
– |
HuggingFaceリポジトリ(例: ggml-org/GLM-4.7-Flash-GGUF:Q4_K_M)。QUANT省略時はQ4_K_Mがデフォルト。mmprojも自動ダウンロード |
unused |
-hfd, -hfrd, --hf-repo-draft USER/MODEL[:QUANT] |
– |
ドラフトモデルのHuggingFaceリポジトリ |
unused |
-hff, --hf-file FILE |
– |
HuggingFaceから特定のファイルを取得(–hf-repoのQUANTを上書き) |
unused |
-hft, --hf-token TOKEN |
– |
HuggingFaceアクセストークン |
環境変数HF_TOKENから取得 |
--mlock |
– |
システムにモデルをRAMに保持させる(スワップ/圧縮防止) |
無効 |
--mmap, --no-mmap |
– |
モデルのメモリマップの有無。mmapを無効化すると読み込みは遅くなりますが、pageouts(ページアウト)が減る可能性があります |
有効 |
-dio, --direct-io, -ndio, --no-direct-io |
– |
DirectIOの利用(利用可能な場合) |
無効 |
--check-tensors |
– |
モデルテンソルデータの値をチェック |
false |
--override-kv KEY=TYPE:VALUE,... |
– |
テンソル名パターンでバッファタイプを上書き。例: blk\.+\..*=f16,attn_*=bf16 |
– |
1.2 コンテキスト・バッチ設定
| パラメータ |
略称 |
説明 |
デフォルト |
-c, --ctx-size N |
– |
プロンプトのコンテキストサイズ。0=モデルから読み込み |
0 |
-n, --predict, --n-predict N |
– |
生成するトークン数。-1=無限大 |
-1 |
-b, --batch-size N |
– |
ロジカル最大バッチサイズ(プロンプト処理) |
2048 |
-ub, --ubatch-size N |
– |
プリセット最小バッチサイズ(物理的最大バッチ) |
512 |
--keep N |
– |
初期プロンプトから保持するトークン数。-1=全て保持 |
0 |
--swa-full |
– |
Full-size SWAキャッシュを使用 |
false |
1.3 CPU/スレッド関連
| パラメータ |
略称 |
説明 |
デフォルト |
-t, --threads N |
– |
推論に使用するCPUスレッド数。-1=自動(物理コア数の半分) |
-1 |
-tb, --threads-batch N |
– |
バッチ/プロンプト処理に使用するスレッド数。省略時は–threadsと同じ値 |
–threadsと同じ |
-C, --cpu-mask M |
– |
CPUアフィニティマスク(長整数)。例: 7 でCPU 0-1-2 |
“” |
-Cr, --cpu-range lo-hi |
– |
CPU範囲指定。例: 0-3 |
– |
--cpu-strict <0\|1> |
– |
厳格なCPU配置を有効化 |
0 |
--prio N |
– |
プロセス/スレッド優先度: low(-1), normal(0), medium(1), high(2), realtime(3) |
0 |
--poll <0\|1> |
– |
ワーク待機時のポーリングレベル(0=不要、1=使用) |
–pollと同じ |
-Cb, --cpu-mask-batch M |
– |
バッチ処理のCPUアフィニティマスク。省略時は–cpu-maskと同じ値 |
–cpu-maskと同じ |
-Crb, --cpu-range-batch lo-hi |
– |
バッチ処理のCPU範囲 |
– |
--cpu-strict-batch <0\|1> |
– |
バッチ処理の厳格なCPU配置 |
–cpu-strictと同じ |
--prio-batch N |
– |
バッチ処理のプロセス/スレッド優先度 |
0 |
--poll-batch <0\|1> |
– |
バッチ処理時のポーリング |
–pollと同じ |
NUMA最適化
--numa TYPE — 一部のNUMAシステム向け最適化。
types: distribute(全ノードに分散)、isolate(初期化ノードのみ)、numactl(numactlのCPUマップ使用)
1.4 GPU/Multi-GPU関連
重要: --n-gpu-layersはllama.cppにおいて最も重要なパラメータの一つです。これにより、GPU VRAMにロードするTransformerレイヤー数を制御できます。
| パラメータ |
略称 |
説明 |
デフォルト |
-ngl, --gpu-layers, --n-gpu-layers N |
– |
VRAMに格納するレイヤー数の上限 |
auto |
-sm, --split-mode {none\|layer\|row} |
– |
複数GPUへのモデル分割方法: none=単一GPUのみ、layer(デフォルト)=レイヤーごとに分割+KV分散、row=GPU間で行方向に分割 |
layer |
-ts, --tensor-split N0,N1,N2,... |
– |
各GPUにオフロードするテンソルの割合をカンマ区切りで指定。例: 3,1(1:3の比率) |
– |
-mg, --main-gpu INDEX |
– |
メインGPUのインデックス。split-mode=noneではモデル用途、rowでは中間結果・KV用途 |
0 |
-fit, --fit [on\|off] |
– |
メモリ不足時に未設定パラメータを自動的に調整し、VRAMに収まるように最適化 |
on(自動フィット有効) |
-fitt, --fit-target MiB0,MiB1,... |
– |
–fitの目標マージン(MiB)。例: 2048,1024 |
1024 |
-fitc, --fit-ctx N |
– |
–fitによる最小コンテキストサイズ。VRAM不足時に自動縮小に使用 |
4096 |
-dev, --device <dev1,dev2,...> |
– |
オフロードに使用するデバイス(カンマ区切り) |
– |
--list-devices |
– |
利用可能なデバイスの一覧を表示して終了 |
– |
-ot, --override-tensor <pattern>=<type>,... |
– |
テンソル名パターンでバッファタイプを上書き。例: attn.*=f16 |
– |
--op-offload, --no-op-offload |
– |
ホストテンソル演算をデバイスにオフロード |
true(有効) |
-cmoe, --cpu-moe |
– |
MoE(Mixture of Experts)全パラメータをCPUメモリに保持 |
無効 |
-ncmoe, --n-cpu-moe N |
– |
MoEの最初のNレイヤーをCPUに保持 |
– |
1.5 Flash Attention / SWA関連
| パラメータ |
略称 |
説明 |
デフォルト |
-fa, --flash-attn [on\|off\|auto] |
– |
Flash Attentionの有効化。性能向上に寄与 |
auto |
SWA(Sliding Window Attention): --swa-full で全SWAキャッシュを有効化し、メモリ効率の最適化を図ります。
1.6 KV Cache / メモリ関連
| パラメータ |
略称 |
説明 |
デフォルト |
-kvo, --kv-offload, -nkvo, --no-kv-offload |
– |
KV cacheのVRAMオフロード。GPU VRAMが不足するときにCPU RAMへ自動フォールバック |
有効 |
--repack, -nr, --no-repack |
– |
weight repackingの有効化 |
有効 |
-ctk, --cache-type-k TYPE |
– |
K KV cacheデータタイプ: f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1 |
f16 |
-ctv, --cache-type-v TYPE |
– |
V KV cacheデータタイプ: 同上 |
f16 |
-dt, --defrag-thold N |
(非推奨) |
KV cacheデフラグメント閾値 |
– |
1.7 RoPE スケーリング関連
| パラメータ |
説明 |
デフォルト |
--rope-scaling {none\|linear\|yarn} |
RoPE周波数スケーリング方式 |
linear(モデル指定時) |
--rope-scale N |
最大コンテキスト倍率。例: N=2で元の2倍のコンテキストに拡張 |
モデル読み込み |
--rope-freq-base N |
RoPE基本周波数(NTK対応スケーリング用) |
モデルから読み込み |
--rope-freq-scale N |
RoPE周波数スケールファクター。N<1でコンテキスト拡大、N>1で縮小 |
1.0(モデル読み込み) |
--yarn-orig-ctx N |
YaRN: モデルの元コンテキストサイズ |
– |
--yarn-ext-factor N |
YaRN: 外挿ミックスファクター。-1=自動、0=完全内挿 |
-1.0 |
--yarn-attn-factor N |
YaRN: sqrt(t)スケーリング/アテンションマグニチュード |
-1.0 |
--yarn-beta-slow N |
YaRN: 高補正ディメンション(alpha) |
-1.0 |
--yarn-beta-fast N |
YaRN: 低補正ディメンション(beta) |
-1.0 |
1.8 ロギング関連
| パラメータ |
説明 |
デフォルト |
--log-disable |
ログ無効化 |
無効 |
--log-file FNAME |
ファイルにログ出力 |
– |
--log-colors [on\|off\|auto] |
カラーログ出力。terminal検出時に自動判定 |
auto(terminal検出時自動) |
-v, --verbose, --log-verbose |
詳細ログ表示 |
– |
-lv, --verbosity, --log-verbosity N |
ログ閾値: 0=generic、1=error、2=warning、3=info、4=debug |
3(info) |
--log-prefix |
ログメッセージにプレフィックスを付加 |
無効 |
--log-timestamps |
ログタイムスタンプ表示 |
無効 |
--offline |
オフラインモード(キャッシュのみ使用、ネットワークアクセス禁止) |
– |
1.9 その他のCommon Params
| パラメータ |
説明 |
デフォルト |
-h, --help, --usage |
使用法表示 |
– |
--version |
バージョン情報表示 |
– |
--license |
ライセンスと依存関係表示 |
– |
-cl, --cache-list |
キャッシュ内のモデル一覧を表示 |
– |
-e, --escape, --no-escape |
エスケープシーケンス処理 |
true(有効) |
--perf, --no-perf |
内部libllamaパフォーマンスタイミングの表示 |
無効 |
2. Sampling Params(全ツール共通)
Samplingパラメータは生成のランダム性と制御を調整します。順序は重要で、左から適用されます。
2.1 コアサンプリング
| パラメータ |
略称 |
説明 |
デフォルト |
--samplers SAMPLERS |
– |
サンプリング順序を;区切りで指定。デフォルト: penalties;dry;top_n_sigma;top_k;typ_p;top_p;min_p;xtc;temperature |
penalties;dry;top_n_sigma;top_k;typ_p;top_p;min_p;xtc;temperature |
-s, --seed SEED |
– |
乱数シード。-1=ランダムシード(再現性なし) |
-1 |
--temp, --temperature N |
– |
温度パラメータ。低いほど決定論的、高いほど創造的。0.0〜2.0程度が推奨範囲 |
0.80 |
--top-k N |
– |
Top-Kサンプリング。上位Nトークンのみを候補に。0=無効化 |
40 |
--top-p N |
– |
Top-P(Nucleus)サンプリング。累積確率Pのトークンのみ。1.0=無効 |
0.95 |
--min-p N |
– |
Min-Pサンプリング。最大確率×min-p以上のトークンを保持する最小確率フィルタ |
0.05(有効) |
--top-nsigma, --top-n-sigma N |
– |
Top-N-Sigma: 平均±Nσの範囲外を除去する統計的サンプリング |
-1.0(無効) |
--typical, --typical-p N |
– |
Locally Typical Sampling: ローカル確率分布に基づく典型トークン選択 |
1.0(無効) |
2.2 DRY サンプリング(重複防止)
| パラメータ |
説明 |
デフォルト |
--dry-multiplier N |
DRYサンプリングの乗数。0=無効 |
0.0(無効) |
--dry-base N |
DRYサンプリングの基本値 |
1.75 |
--dry-allowed-length N |
DRY: 許容長のトークン数 |
2 |
--dry-penalty-last-n N |
DRY: 最後にNトークンで繰り返しをペナルタイズ。-1=コンテキストサイズ全範囲 |
-1 |
--dry-sequence-breaker STRING |
DRY: シーケンスブレーカー文字列(’\n’, ‘:’, ‘”‘, ‘*’など)。”none”で全て無効化 |
– |
2.3 アダプティブ・ダイナミック温度
| パラメータ |
説明 |
デフォルト |
--adaptive-target N |
Adaptive-P: 目標確率。0〜1の範囲、負値=無効 |
-1.0(無効) |
--adaptive-decay N |
Adaptive-P: デケイエ係数。低いほど反応的、高いほど安定 |
0.90 |
--dynatemp-range N |
ダイナミックTemperature範囲。例: 0.3で[0.5,1.1]の範囲にランダム変動 |
0.0(無効) |
--dynatemp-exp N |
ダイナミック温度指数 |
1.0 |
2.4 Mirostat サンプリング
Mirostatは、生成中のperplexityを自動制御する高度なサンプリング手法です。
| パラメータ |
説明 |
デフォルト |
--mirostat N |
Mirostatモード: 0=無効、1=Mirostat v1、2=Mirostat v2.0(推奨) |
0(無効) |
--mirostat-lr N |
Mirostat学習率(eta)。例: 0.1〜0.5が推奨 |
0.10 |
--mirostat-ent N |
Mirostatターゲットエンタピー(tau)。低いほど厳格、高いほど緩やか。5.0〜8.0が一般的 |
5.00 |
注意: Mirostat v1/v2を使用する場合、Top-K / Nucleus / Locally Typicalサンプリングは自動的に無効化されます。
2.5 その他のサンプリング
| パラメータ |
説明 |
デフォルト |
--repeat-last-n N |
ペナルタイズする直前のNトークン。0=無効、-1=ctx-size全範囲 |
64 |
--repeat-penalty N |
リピートシーケンスへのペナルティ(反復抑制)。例: 1.0〜1.5。1.1が一般的な推奨値 |
1.0(無効) |
--presence-penalty N |
存在ペナルティ。出現済みトークンを追加で抑制 |
0.0(無効) |
--frequency-penalty N |
頻度ペナルティ。出現頻度の高いトークンを抑制 |
0.0(無効) |
-l, --logit-bias TOKEN_ID(+/-)BIAS |
ロジットバイアス: トークンIDに対する確率補正 |
– |
--ignore-eos |
EOS(End-of-Sequence)トークンを無視し、生成を継続 |
無効 |
3. llama-cli固有パラメータ
3.1 プロンプト/対話モード
| パラメータ |
略称 |
説明 |
デフォルト |
-p, --prompt PROMPT |
– |
開始プロンプト(システムメッセージは–system-promptを使用) |
– |
-f, --file FNAME |
– |
プロンプトファイル(対話ではなくファイル内容を使用) |
なし |
-bf, --binary-file FNAME |
– |
バイナリプロンプトファイル |
なし |
-r, --reverse-prompt PROMPT |
– |
指定したプロンプト出現時に生成を停止。会話モードで再対話を返す |
– |
-st, --single-turn |
– |
シングルターン(1回応答後終了)。–promptと併用不可 |
false |
-cnv, --conversation, -no-cnv, --no-conversation |
– |
会話モード。特殊トークン・プレフィックス表示を抑制。chatテンプレート利用時は自動有効 |
chatテンプレート利用時は自動有効 |
-mm, --mmproj FILE |
– |
マルチモーダルプロジェクトファイル(Visionモデル用) |
– |
--mmproj-offload, --no-mmproj-offload |
– |
マルチモーダルGPUオフロード。オンボードメモリ/VRAMの確保に寄与 |
有効 |
--image, --audio FILE |
– |
画像・音声ファイル(マルチモーダルモデル用)。複数指定可 |
– |
3.2 表示/ロギング
| パラメータ |
説明 |
デフォルト |
--display-prompt, --no-display-prompt |
プロンプト表示の有無 |
true(表示) |
-co, --color [on\|off\|auto] |
カラー出力(プロンプトと入力を区別して表示)。terminal検出時に自動判定 |
auto(terminal検出時) |
--show-timings, --no-show-timings |
各応答後にタイミング情報を表示 |
true(表示) |
-sp, --special |
特殊トークン出力を有効化 |
false |
3.3 Chat / テンプレート
| パラメータ |
説明 |
デフォルト |
-sys, --system-prompt PROMPT |
システムメッセージ(モデルのchat formatに依存) |
– |
-sysf, --system-prompt-file FNAME |
システムプロンプトファイル |
– |
--chat-template TEMPLATE |
Jinja形式カスタムチャットテンプレート。組み込み: llama3, chatml, deepseek, gemma, mistral-v3等 |
モデルのメタデータから自動読み込み |
--chat-template-file FILE |
カスタムJinjaファイルを読み込み |
– |
--jinja, --no-jinja |
Jinjaテンプレートエンジン使用の有無 |
有効(デフォルト) |
サポートされている組み込みチャットテンプレート:
bailing, bailing-think, bailing2, chatglm3, chatglm4, chatml, command-r, deepseek, deepseek-ocr, deepseek2, deepseek3, exaone-moe, exaone3, exaone4, falcon3, gemma, gigachat, glmedge, gpt-oss, granite, grok-2, hunyuan-dense, hunyuan-moe, kimi-k2, llama2, llama2-sys, llama2-sys-bos, llama2-sys-strip, llama3, llama4, megrez, minicpm, mistral-v1, mistral-v3, mistral-v3-tekken, mistral-v7, mistral-v7-tekken, monarch, openchat, orion, pangu-embedded, phi3, phi4, rwkv-world, seed_oss, smolvlm, solar-open, vicuna, vicuna-orca, yandex, zephyr
3.4 マルチモーダル / Vision
| パラメータ |
説明 |
デフォルト |
-mm, --mmproj FILE |
マルチモーダルプロジェクトファイル(Visionモデル用) |
– |
--mmproj-auto, --no-mmproj, --no-mmproj-auto |
モデルのマルチモーダル自動読み込みの有効/無効 |
auto |
-otd, --override-tensor-draft <pattern>=<type>,... |
ドラフトモデルのテンソル名パターンでバッファタイプを上書き |
– |
3.5 Speculative Decoding(推論コードネーム)
| パラメータ |
説明 |
デフォルト |
--draft, --draft-n, --draft-max N |
ドラフトトークン数。speculative decoding時のドラフト生成 |
16 |
-md, --model-draft FNAME |
ドラフトモデルファイル(speculative decoding用) |
– |
--spec-replace TARGET DRAFT |
TARGET=DRAFTを置換する(互換性がない場合の処理) |
– |
4. llama-server固有パラメータ
llama-serverはOpenAI互換REST APIを提供します。以下はCommon Params / Sampling Paramsに加えて追加されるパラメータです。
4.1 サーバー基本設定
| パラメータ |
説明 |
デフォルト |
--host HOST |
リッスンするIPアドレス(例: 0.0.0.0は全インターフェース listening)。.sock付きの場合はUNIX socketとして動作 |
127.0.0.1 |
--port PORT |
ポート番号 |
8080 |
--reuse-port |
複数ソケットが同ポートを使用可能に(SO_REUSEPORT) |
無効 |
-np, --parallel N |
サーバースロット数。-1=自動。並列リクエストに対応 |
-1(自動) |
-to, --timeout N |
HTTPタイムアウト(秒)。0=無限 |
600 |
4.2 エンドポイント / モニタリング
| パラメータ |
説明 |
デフォルト |
--metrics |
Prometheus互換メトリクスエンドポイントを有効化 |
無効 |
--slots, --no-slots |
スロットモニターエンドポイント(/metrics/slots)を有効化 |
有効 |
-cb, --cont-batching, -nocb, --no-cont-batching |
Continuous Batching(動的バッチ)の有無。リクエスト処理効率の向上 |
有効 |
4.3 システムプロンプト / 会話関連
| パラメータ |
説明 |
デフォルト |
-sys, --system-prompt PROMPT |
システムメッセージ(API利用時にも適用) |
– |
-sp, --special |
特殊トークン出力の有無 |
false |
-r, --reverse-prompt PROMPT |
指定プロンプト出現時に生成を停止 |
– |
4.4 マルチモーダル / Vision(llama-server追加)
| パラメータ |
説明 |
デフォルト |
-mm, --mmproj FILE |
マルチモーダルプロジェクトファイルパス |
– |
--mmproj-auto, --no-mmproj, --no-mmproj-auto |
MMproj自動読み込み |
auto |
--mmproj-offload, --no-mmproj-offload |
MMproj GPUオフロード |
有効 |
以上、llama.cppの全パラメータ一覧でした。
本情報は2026年4月18日時点で最新の公式ドキュメントに基づいています。
コメント