llama.cpp パラメータ完全リスト（2026年4月最新版）

最終更新日: 2026年4月18日
対象バージョン: llama.cpp masterブランチ（最新コミットベース）
出典: ggml-org/llama.cpp GitHub 公式ドキュメント

はじめに
0. パラメータの優先順位
1. Common Params（全ツール共通）
2. Sampling Params（全ツール共通）
3. llama-cli固有パラメータ
4. llama-server固有パラメータ

はじめに

llama.cppは、ローカルLLM推論のためのC/C++実装です。主に3つのツールが含まれており、それぞれのCLIパラメータを体系的に解説します。

ツール	説明
`llama-cli`	コマンドライン対話・テキスト生成クライアント
`llama-server`	OpenAI互換REST APIサーバー
`llama-completion`	バッチテキスト生成ツール

また、全ツールで共通するCommon Params、Sampling Params、さらに各ツール固有のパラメータが存在します。

0. パラメータの優先順位

パラメータは以下の順序で優先度が高くなります（上位が勝つ）:

コマンドライン引数（最高優先）
環境変数（例: LLAMA_ARG_THREADS）
Presetファイル内定義
モデルファイルのメタデータ（最低優先）

1. Common Params（全ツール共通）

1.1 モデル読み込み関連

パラメータ	略称	説明	デフォルト
`-m, --model FNAME`	–	読み込むモデルファイルのパス	（必須）
`-mu, --model-url URL`	–	HuggingFaceからモデルをURLでダウンロード	unused
`-dr, --docker-repo REPO`	–	Docker Hubリポジトリからモデル（例: `gemma3`）	unused
`-hf, -hfr, --hf-repo USER/MODEL[:QUANT]`	–	HuggingFaceリポジトリ（例: `ggml-org/GLM-4.7-Flash-GGUF:Q4_K_M`）。QUANT省略時はQ4_K_Mがデフォルト。mmprojも自動ダウンロード	unused
`-hfd, -hfrd, --hf-repo-draft USER/MODEL[:QUANT]`	–	ドラフトモデルのHuggingFaceリポジトリ	unused
`-hff, --hf-file FILE`	–	HuggingFaceから特定のファイルを取得（–hf-repoのQUANTを上書き）	unused
`-hft, --hf-token TOKEN`	–	HuggingFaceアクセストークン	環境変数HF_TOKENから取得
`--mlock`	–	システムにモデルをRAMに保持させる（スワップ/圧縮防止）	無効
`--mmap, --no-mmap`	–	モデルのメモリマップの有無。mmapを無効化すると読み込みは遅くなりますが、pageouts（ページアウト）が減る可能性があります	有効
`-dio, --direct-io, -ndio, --no-direct-io`	–	DirectIOの利用（利用可能な場合）	無効
`--check-tensors`	–	モデルテンソルデータの値をチェック	false
`--override-kv KEY=TYPE:VALUE,...`	–	テンソル名パターンでバッファタイプを上書き。例: `blk\.+\..=f16,attn_=bf16`	–

1.2 コンテキスト・バッチ設定

パラメータ	略称	説明	デフォルト
`-c, --ctx-size N`	–	プロンプトのコンテキストサイズ。0=モデルから読み込み	0
`-n, --predict, --n-predict N`	–	生成するトークン数。-1=無限大	-1
`-b, --batch-size N`	–	ロジカル最大バッチサイズ（プロンプト処理）	2048
`-ub, --ubatch-size N`	–	プリセット最小バッチサイズ（物理的最大バッチ）	512
`--keep N`	–	初期プロンプトから保持するトークン数。-1=全て保持	0
`--swa-full`	–	Full-size SWAキャッシュを使用	false

1.3 CPU/スレッド関連

パラメータ	略称	説明	デフォルト
`-t, --threads N`	–	推論に使用するCPUスレッド数。-1=自動（物理コア数の半分）	-1
`-tb, --threads-batch N`	–	バッチ/プロンプト処理に使用するスレッド数。省略時は–threadsと同じ値	–threadsと同じ
`-C, --cpu-mask M`	–	CPUアフィニティマスク（長整数）。例: `7` でCPU 0-1-2	“”
`-Cr, --cpu-range lo-hi`	–	CPU範囲指定。例: `0-3`	–
`--cpu-strict <0\\|1>`	–	厳格なCPU配置を有効化	0
`--prio N`	–	プロセス/スレッド優先度: low(-1), normal(0), medium(1), high(2), realtime(3)	0
`--poll <0\\|1>`	–	ワーク待機時のポーリングレベル（0=不要、1=使用）	–pollと同じ
`-Cb, --cpu-mask-batch M`	–	バッチ処理のCPUアフィニティマスク。省略時は–cpu-maskと同じ値	–cpu-maskと同じ
`-Crb, --cpu-range-batch lo-hi`	–	バッチ処理のCPU範囲	–
`--cpu-strict-batch <0\\|1>`	–	バッチ処理の厳格なCPU配置	–cpu-strictと同じ
`--prio-batch N`	–	バッチ処理のプロセス/スレッド優先度	0
`--poll-batch <0\\|1>`	–	バッチ処理時のポーリング	–pollと同じ

NUMA最適化
--numa TYPE — 一部のNUMAシステム向け最適化。
types: distribute（全ノードに分散）、isolate（初期化ノードのみ）、numactl（numactlのCPUマップ使用）

1.4 GPU/Multi-GPU関連

重要: --n-gpu-layersはllama.cppにおいて最も重要なパラメータの一つです。これにより、GPU VRAMにロードするTransformerレイヤー数を制御できます。

パラメータ	略称	説明	デフォルト
`-ngl, --gpu-layers, --n-gpu-layers N`	–	VRAMに格納するレイヤー数の上限	auto
`-sm, --split-mode {none\\|layer\\|row}`	–	複数GPUへのモデル分割方法: `none`=単一GPUのみ、`layer`（デフォルト）=レイヤーごとに分割+KV分散、`row`=GPU間で行方向に分割	layer
`-ts, --tensor-split N0,N1,N2,...`	–	各GPUにオフロードするテンソルの割合をカンマ区切りで指定。例: `3,1`（1:3の比率）	–
`-mg, --main-gpu INDEX`	–	メインGPUのインデックス。split-mode=noneではモデル用途、rowでは中間結果・KV用途	0
`-fit, --fit [on\\|off]`	–	メモリ不足時に未設定パラメータを自動的に調整し、VRAMに収まるように最適化	on（自動フィット有効）
`-fitt, --fit-target MiB0,MiB1,...`	–	–fitの目標マージン（MiB）。例: `2048,1024`	1024
`-fitc, --fit-ctx N`	–	–fitによる最小コンテキストサイズ。VRAM不足時に自動縮小に使用	4096
`-dev, --device <dev1,dev2,...>`	–	オフロードに使用するデバイス（カンマ区切り）	–
`--list-devices`	–	利用可能なデバイスの一覧を表示して終了	–
`-ot, --override-tensor <pattern>=<type>,...`	–	テンソル名パターンでバッファタイプを上書き。例: `attn.*=f16`	–
`--op-offload, --no-op-offload`	–	ホストテンソル演算をデバイスにオフロード	true（有効）
`-cmoe, --cpu-moe`	–	MoE（Mixture of Experts）全パラメータをCPUメモリに保持	無効
`-ncmoe, --n-cpu-moe N`	–	MoEの最初のNレイヤーをCPUに保持	–

1.5 Flash Attention / SWA関連

パラメータ	略称	説明	デフォルト
`-fa, --flash-attn [on\\|off\\|auto]`	–	Flash Attentionの有効化。性能向上に寄与	auto

SWA（Sliding Window Attention）: --swa-full で全SWAキャッシュを有効化し、メモリ効率の最適化を図ります。

1.6 KV Cache / メモリ関連

パラメータ	略称	説明	デフォルト
`-kvo, --kv-offload, -nkvo, --no-kv-offload`	–	KV cacheのVRAMオフロード。GPU VRAMが不足するときにCPU RAMへ自動フォールバック	有効
`--repack, -nr, --no-repack`	–	weight repackingの有効化	有効
`-ctk, --cache-type-k TYPE`	–	K KV cacheデータタイプ: f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1	f16
`-ctv, --cache-type-v TYPE`	–	V KV cacheデータタイプ: 同上	f16
`-dt, --defrag-thold N`	（非推奨）	KV cacheデフラグメント閾値	–

1.7 RoPE スケーリング関連

パラメータ	説明	デフォルト
`--rope-scaling {none\\|linear\\|yarn}`	RoPE周波数スケーリング方式	linear（モデル指定時）
`--rope-scale N`	最大コンテキスト倍率。例: N=2で元の2倍のコンテキストに拡張	モデル読み込み
`--rope-freq-base N`	RoPE基本周波数（NTK対応スケーリング用）	モデルから読み込み
`--rope-freq-scale N`	RoPE周波数スケールファクター。N<1でコンテキスト拡大、N>1で縮小	1.0（モデル読み込み）
`--yarn-orig-ctx N`	YaRN: モデルの元コンテキストサイズ	–
`--yarn-ext-factor N`	YaRN: 外挿ミックスファクター。-1=自動、0=完全内挿	-1.0
`--yarn-attn-factor N`	YaRN: sqrt(t)スケーリング／アテンションマグニチュード	-1.0
`--yarn-beta-slow N`	YaRN: 高補正ディメンション（alpha）	-1.0
`--yarn-beta-fast N`	YaRN: 低補正ディメンション（beta）	-1.0

1.8 ロギング関連

パラメータ	説明	デフォルト
`--log-disable`	ログ無効化	無効
`--log-file FNAME`	ファイルにログ出力	–
`--log-colors [on\\|off\\|auto]`	カラーログ出力。terminal検出時に自動判定	auto（terminal検出時自動）
`-v, --verbose, --log-verbose`	詳細ログ表示	–
`-lv, --verbosity, --log-verbosity N`	ログ閾値: 0=generic、1=error、2=warning、3=info、4=debug	3（info）
`--log-prefix`	ログメッセージにプレフィックスを付加	無効
`--log-timestamps`	ログタイムスタンプ表示	無効
`--offline`	オフラインモード（キャッシュのみ使用、ネットワークアクセス禁止）	–

1.9 その他のCommon Params

パラメータ	説明	デフォルト
`-h, --help, --usage`	使用法表示	–
`--version`	バージョン情報表示	–
`--license`	ライセンスと依存関係表示	–
`-cl, --cache-list`	キャッシュ内のモデル一覧を表示	–
`-e, --escape, --no-escape`	エスケープシーケンス処理	true（有効）
`--perf, --no-perf`	内部libllamaパフォーマンスタイミングの表示	無効

2. Sampling Params（全ツール共通）

Samplingパラメータは生成のランダム性と制御を調整します。順序は重要で、左から適用されます。

2.1 コアサンプリング

パラメータ	略称	説明	デフォルト
`--samplers SAMPLERS`	–	サンプリング順序を`;`区切りで指定。デフォルト: `penalties;dry;top_n_sigma;top_k;typ_p;top_p;min_p;xtc;temperature`	penalties;dry;top_n_sigma;top_k;typ_p;top_p;min_p;xtc;temperature
`-s, --seed SEED`	–	乱数シード。-1=ランダムシード（再現性なし）	-1
`--temp, --temperature N`	–	温度パラメータ。低いほど決定論的、高いほど創造的。0.0〜2.0程度が推奨範囲	0.80
`--top-k N`	–	Top-Kサンプリング。上位Nトークンのみを候補に。0=無効化	40
`--top-p N`	–	Top-P（Nucleus）サンプリング。累積確率Pのトークンのみ。1.0=無効	0.95
`--min-p N`	–	Min-Pサンプリング。最大確率×min-p以上のトークンを保持する最小確率フィルタ	0.05（有効）
`--top-nsigma, --top-n-sigma N`	–	Top-N-Sigma: 平均±Nσの範囲外を除去する統計的サンプリング	-1.0（無効）
`--typical, --typical-p N`	–	Locally Typical Sampling: ローカル確率分布に基づく典型トークン選択	1.0（無効）

2.2 DRY サンプリング（重複防止）

パラメータ	説明	デフォルト
`--dry-multiplier N`	DRYサンプリングの乗数。0=無効	0.0（無効）
`--dry-base N`	DRYサンプリングの基本値	1.75
`--dry-allowed-length N`	DRY: 許容長のトークン数	2
`--dry-penalty-last-n N`	DRY: 最後にNトークンで繰り返しをペナルタイズ。-1=コンテキストサイズ全範囲	-1
`--dry-sequence-breaker STRING`	DRY: シーケンスブレーカー文字列（’\n’, ‘:’, ‘”‘, ‘*’など）。”none”で全て無効化	–

2.3 アダプティブ・ダイナミック温度

パラメータ	説明	デフォルト
`--adaptive-target N`	Adaptive-P: 目標確率。0〜1の範囲、負値=無効	-1.0（無効）
`--adaptive-decay N`	Adaptive-P: デケイエ係数。低いほど反応的、高いほど安定	0.90
`--dynatemp-range N`	ダイナミックTemperature範囲。例: 0.3で[0.5,1.1]の範囲にランダム変動	0.0（無効）
`--dynatemp-exp N`	ダイナミック温度指数	1.0

2.4 Mirostat サンプリング

Mirostatは、生成中のperplexityを自動制御する高度なサンプリング手法です。

パラメータ	説明	デフォルト
`--mirostat N`	Mirostatモード: 0=無効、1=Mirostat v1、2=Mirostat v2.0（推奨）	0（無効）
`--mirostat-lr N`	Mirostat学習率（eta）。例: 0.1〜0.5が推奨	0.10
`--mirostat-ent N`	Mirostatターゲットエンタピー（tau）。低いほど厳格、高いほど緩やか。5.0〜8.0が一般的	5.00

注意: Mirostat v1/v2を使用する場合、Top-K / Nucleus / Locally Typicalサンプリングは自動的に無効化されます。

2.5 その他のサンプリング

パラメータ	説明	デフォルト
`--repeat-last-n N`	ペナルタイズする直前のNトークン。0=無効、-1=ctx-size全範囲	64
`--repeat-penalty N`	リピートシーケンスへのペナルティ（反復抑制）。例: 1.0〜1.5。1.1が一般的な推奨値	1.0（無効）
`--presence-penalty N`	存在ペナルティ。出現済みトークンを追加で抑制	0.0（無効）
`--frequency-penalty N`	頻度ペナルティ。出現頻度の高いトークンを抑制	0.0（無効）
`-l, --logit-bias TOKEN_ID(+/-)BIAS`	ロジットバイアス: トークンIDに対する確率補正	–
`--ignore-eos`	EOS(End-of-Sequence)トークンを無視し、生成を継続	無効

3. llama-cli固有パラメータ

3.1 プロンプト/対話モード

パラメータ	略称	説明	デフォルト
`-p, --prompt PROMPT`	–	開始プロンプト（システムメッセージは–system-promptを使用）	–
`-f, --file FNAME`	–	プロンプトファイル（対話ではなくファイル内容を使用）	なし
`-bf, --binary-file FNAME`	–	バイナリプロンプトファイル	なし
`-r, --reverse-prompt PROMPT`	–	指定したプロンプト出現時に生成を停止。会話モードで再対話を返す	–
`-st, --single-turn`	–	シングルターン（1回応答後終了）。–promptと併用不可	false
`-cnv, --conversation, -no-cnv, --no-conversation`	–	会話モード。特殊トークン・プレフィックス表示を抑制。chatテンプレート利用時は自動有効	chatテンプレート利用時は自動有効
`-mm, --mmproj FILE`	–	マルチモーダルプロジェクトファイル（Visionモデル用）	–
`--mmproj-offload, --no-mmproj-offload`	–	マルチモーダルGPUオフロード。オンボードメモリ/VRAMの確保に寄与	有効
`--image, --audio FILE`	–	画像・音声ファイル（マルチモーダルモデル用）。複数指定可	–

3.2 表示/ロギング

パラメータ	説明	デフォルト
`--display-prompt, --no-display-prompt`	プロンプト表示の有無	true（表示）
`-co, --color [on\\|off\\|auto]`	カラー出力（プロンプトと入力を区別して表示）。terminal検出時に自動判定	auto（terminal検出時）
`--show-timings, --no-show-timings`	各応答後にタイミング情報を表示	true（表示）
`-sp, --special`	特殊トークン出力を有効化	false

3.3 Chat / テンプレート

パラメータ	説明	デフォルト
`-sys, --system-prompt PROMPT`	システムメッセージ（モデルのchat formatに依存）	–
`-sysf, --system-prompt-file FNAME`	システムプロンプトファイル	–
`--chat-template TEMPLATE`	Jinja形式カスタムチャットテンプレート。組み込み: `llama3, chatml, deepseek, gemma, mistral-v3`等	モデルのメタデータから自動読み込み
`--chat-template-file FILE`	カスタムJinjaファイルを読み込み	–
`--jinja, --no-jinja`	Jinjaテンプレートエンジン使用の有無	有効（デフォルト）

サポートされている組み込みチャットテンプレート:
bailing, bailing-think, bailing2, chatglm3, chatglm4, chatml, command-r, deepseek, deepseek-ocr, deepseek2, deepseek3, exaone-moe, exaone3, exaone4, falcon3, gemma, gigachat, glmedge, gpt-oss, granite, grok-2, hunyuan-dense, hunyuan-moe, kimi-k2, llama2, llama2-sys, llama2-sys-bos, llama2-sys-strip, llama3, llama4, megrez, minicpm, mistral-v1, mistral-v3, mistral-v3-tekken, mistral-v7, mistral-v7-tekken, monarch, openchat, orion, pangu-embedded, phi3, phi4, rwkv-world, seed_oss, smolvlm, solar-open, vicuna, vicuna-orca, yandex, zephyr

3.4 マルチモーダル / Vision

パラメータ	説明	デフォルト
`-mm, --mmproj FILE`	マルチモーダルプロジェクトファイル（Visionモデル用）	–
`--mmproj-auto, --no-mmproj, --no-mmproj-auto`	モデルのマルチモーダル自動読み込みの有効/無効	auto
`-otd, --override-tensor-draft <pattern>=<type>,...`	ドラフトモデルのテンソル名パターンでバッファタイプを上書き	–

3.5 Speculative Decoding（推論コードネーム）

パラメータ	説明	デフォルト
`--draft, --draft-n, --draft-max N`	ドラフトトークン数。speculative decoding時のドラフト生成	16
`-md, --model-draft FNAME`	ドラフトモデルファイル（speculative decoding用）	–
`--spec-replace TARGET DRAFT`	TARGET=DRAFTを置換する（互換性がない場合の処理）	–

4. llama-server固有パラメータ

llama-serverはOpenAI互換REST APIを提供します。以下はCommon Params / Sampling Paramsに加えて追加されるパラメータです。

4.1 サーバー基本設定

パラメータ	説明	デフォルト
`--host HOST`	リッスンするIPアドレス（例: `0.0.0.0`は全インターフェース listening）。`.sock`付きの場合はUNIX socketとして動作	`127.0.0.1`
`--port PORT`	ポート番号	`8080`
`--reuse-port`	複数ソケットが同ポートを使用可能に（SO_REUSEPORT）	無効
`-np, --parallel N`	サーバースロット数。-1=自動。並列リクエストに対応	-1（自動）
`-to, --timeout N`	HTTPタイムアウト（秒）。0=無限	`600`

4.2 エンドポイント / モニタリング

パラメータ	説明	デフォルト
`--metrics`	Prometheus互換メトリクスエンドポイントを有効化	無効
`--slots, --no-slots`	スロットモニターエンドポイント（`/metrics/slots`）を有効化	有効
`-cb, --cont-batching, -nocb, --no-cont-batching`	Continuous Batching（動的バッチ）の有無。リクエスト処理効率の向上	有効

4.3 システムプロンプト / 会話関連

パラメータ	説明	デフォルト
`-sys, --system-prompt PROMPT`	システムメッセージ（API利用時にも適用）	–
`-sp, --special`	特殊トークン出力の有無	false
`-r, --reverse-prompt PROMPT`	指定プロンプト出現時に生成を停止	–

4.4 マルチモーダル / Vision（llama-server追加）

パラメータ	説明	デフォルト
`-mm, --mmproj FILE`	マルチモーダルプロジェクトファイルパス	–
`--mmproj-auto, --no-mmproj, --no-mmproj-auto`	MMproj自動読み込み	auto
`--mmproj-offload, --no-mmproj-offload`	MMproj GPUオフロード	有効

以上、llama.cppの全パラメータ一覧でした。

本情報は2026年4月18日時点で最新の公式ドキュメントに基づいています。

llama.cppパラメータ完全リスト（2026年4月最新版）