OpenAIのAPIの処理が遅い!? GPT-5系のReasoning（推論）モードを解除する

2025.12.11 - Note

OpenAIのAPIの処理が遅い!? GPT-5系のReasoning（推論）モードを解除する

Tag:AI

OpenAI のapiの GPT-5、GPT-5 mini、GPT-5 nanoは　デフォルトでReasoning（推論）モードで動く（思考 thinkingみたいなもの）。
レスポンスに “reasoning_tokens”: 342, みたいな数値があり、トークンを多く消費し、処理時間も長くなる。
推論をやめて、処理を速く、コストを安くするには、リクエストに “reasoning_effort” パラメータを使う。
値は
minimal: ほぼ0。GPT‑5で新追加。
low: 軽めに考える
medium: デフォルト
high: 最大限考える

curlならこんなリクエスト /v1/chat/completionsの場合

{
  "reasoning_effort": "minimal",
  "model": "gpt-5-mini-2025-08-07",
  "verbosity": "low",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "日本の首都は?"
        }
      ]
    }
  ]
}

{

"reasoning_effort": "minimal",

"model": "gpt-5-mini-2025-08-07",

"verbosity": "low",

"messages": [

{

"role": "user",

"content": [

{

"type": "text",

"text": "日本の首都は?"

}

]

}

]

}

OpenAIのライブラリの場合はこんな感じ

{
  model: "gpt-5.1",
  input: "日本の首都は?",
  reasoning: { effort: "none" },
  text: { verbosity: "low" },
}

{

model: "gpt-5.1",

input: "日本の首都は?",

reasoning: { effort: "none" },

text: { verbosity: "low" },

}

ちなみに verbosity パラメータは
回答をより簡潔または詳細にするよう指示できる
値は
low: 短い
medium（デフォルト）: 通常
high: 長い

v1/responseの場合

記載例 {reasoning: {effort: “none”}}

reasoning（オブジェクト）
任意
gpt-5以上と o-series モデルのみ
推論モデル向けの設定オプション。

effort（string）
任意
推論モデルの「努力」レベルを制限するための設定。

■gpt-5.1以降はデフォルトが none（推論を行わない）
サポートされてる値は none、minimal、low、medium、high、xhigh。
xhigh は gpt-5.1-codex-max より後のモデルでサポートされている。

■gpt-5.1 より前のモデルはデフォルトが medium（推論あり）
サポートされてる値は minimal、low、medium、high。
gpt-5-pro はデフォルトで（唯一サポートされているのが）high。

BLOG