[
  {
    "provider": "jiaotailang",
    "model": "gpt-5.4",
    "probes": [
      {
        "name": "models",
        "status": "ok",
        "score": 100,
        "durationMs": 120,
        "count": 5,
        "sample": [
          "claude-sonnet-4.6",
          "gpt-5.2",
          "gpt-5.3-codex",
          "gpt-5.4",
          "gpt-5.4-mini"
        ],
        "sampleAll": [
          "claude-sonnet-4.6",
          "gpt-5.2",
          "gpt-5.3-codex",
          "gpt-5.4",
          "gpt-5.4-mini"
        ],
        "names": []
      },
      {
        "name": "connectivity",
        "status": "ok",
        "score": 100,
        "durationMs": 1662,
        "model": "gpt-5.4",
        "configuredModel": "gpt-5.4",
        "message": "basic request succeeded",
        "url": "https://new.145678.xyz/v1/chat/completions"
      },
      {
        "name": "short-context",
        "status": "ok",
        "score": 100,
        "durationMs": 2313,
        "sample": "SHORT_OK",
        "model": "gpt-5.4"
      },
      {
        "name": "long-context",
        "status": "ok",
        "score": 100,
        "durationMs": 1455,
        "sample": "NEEDLE_42",
        "model": "gpt-5.4"
      },
      {
        "name": "long-output",
        "status": "ok",
        "score": 100,
        "durationMs": 6053,
        "bullets": 40,
        "model": "gpt-5.4"
      },
      {
        "name": "openclaw-sim",
        "status": "ok",
        "score": 100,
        "sample": "- It helps the assistant stay consistent over long interactions, so earlier instructions, constraints, and user preferences don’t get lost or contradicted when deciding whether and how to use tools.\n\n- It improves multi-step tool workflows by preserving relevant context across calls, reducing errors like using the wrong tool, repeating work, or misinterpreting results from earlier steps.",
        "durationMs": 2443,
        "model": "gpt-5.4"
      },
      {
        "name": "stability",
        "status": "ok",
        "score": 100,
        "runs": 3,
        "success": 3,
        "avgDurationMs": 2328,
        "model": "gpt-5.4"
      }
    ],
    "connectivityMs": 1662,
    "shortMs": 2313,
    "longContextMs": 1455,
    "longOutputMs": 6053,
    "openclawSimMs": 2443,
    "stabilityAvgMs": 2328,
    "resolvedModel": "gpt-5.4",
    "status": "ok"
  },
  {
    "provider": "jiaotailang",
    "model": "gpt-5.4-mini",
    "probes": [
      {
        "name": "models",
        "status": "ok",
        "score": 100,
        "durationMs": 120,
        "count": 5,
        "sample": [
          "claude-sonnet-4.6",
          "gpt-5.2",
          "gpt-5.3-codex",
          "gpt-5.4",
          "gpt-5.4-mini"
        ],
        "sampleAll": [
          "claude-sonnet-4.6",
          "gpt-5.2",
          "gpt-5.3-codex",
          "gpt-5.4",
          "gpt-5.4-mini"
        ],
        "names": []
      },
      {
        "name": "connectivity",
        "status": "ok",
        "score": 100,
        "durationMs": 1541,
        "model": "gpt-5.4-mini",
        "configuredModel": "gpt-5.4-mini",
        "message": "basic request succeeded",
        "url": "https://new.145678.xyz/v1/chat/completions"
      },
      {
        "name": "short-context",
        "status": "ok",
        "score": 100,
        "durationMs": 1307,
        "sample": "SHORT_OK",
        "model": "gpt-5.4-mini"
      },
      {
        "name": "long-context",
        "status": "ok",
        "score": 100,
        "durationMs": 1831,
        "sample": "NEEDLE_42",
        "model": "gpt-5.4-mini"
      },
      {
        "name": "long-output",
        "status": "ok",
        "score": 100,
        "durationMs": 6254,
        "bullets": 40,
        "model": "gpt-5.4-mini"
      },
      {
        "name": "openclaw-sim",
        "status": "ok",
        "score": 100,
        "sample": "- **Keeps tool use reliable over long tasks:** As conversations grow, the assistant must remember earlier instructions, tool outputs, and intermediate state without drifting, repeating work, or making inconsistent decisions.\n\n- **Improves accuracy and user trust:** Long-context stability helps the assistant maintain coherent reasoning across many steps, which is crucial for multi-tool workflows where small memory errors can cascade into wrong actions or answers.",
        "durationMs": 1409,
        "model": "gpt-5.4-mini"
      },
      {
        "name": "stability",
        "status": "ok",
        "score": 100,
        "runs": 3,
        "success": 3,
        "avgDurationMs": 1539,
        "model": "gpt-5.4-mini"
      }
    ],
    "connectivityMs": 1541,
    "shortMs": 1307,
    "longContextMs": 1831,
    "longOutputMs": 6254,
    "openclawSimMs": 1409,
    "stabilityAvgMs": 1539,
    "resolvedModel": "gpt-5.4-mini",
    "status": "ok"
  },
  {
    "provider": "jlypx",
    "model": "gpt-5.4",
    "probes": [
      {
        "name": "models",
        "status": "ok",
        "score": 100,
        "durationMs": 331,
        "count": 11,
        "sample": [
          "gpt-5",
          "gpt-5-codex",
          "gpt-5.1",
          "gpt-5.1-codex",
          "gpt-5.1-codex-max",
          "gpt-5.1-codex-mini",
          "gpt-5.2",
          "gpt-5.2-codex",
          "gpt-5.3-codex",
          "gpt-5.4"
        ],
        "sampleAll": [
          "gpt-5",
          "gpt-5-codex",
          "gpt-5.1",
          "gpt-5.1-codex",
          "gpt-5.1-codex-max",
          "gpt-5.1-codex-mini",
          "gpt-5.2",
          "gpt-5.2-codex",
          "gpt-5.3-codex",
          "gpt-5.4",
          "gpt-5.4-mini"
        ],
        "names": []
      },
      {
        "name": "connectivity",
        "status": "ok",
        "score": 100,
        "durationMs": 1047,
        "model": "gpt-5.4",
        "configuredModel": "gpt-5.4",
        "message": "basic request succeeded",
        "url": "https://betterclau.de/openai/sub.jlypx.de/v1/chat/completions"
      },
      {
        "name": "short-context",
        "status": "ok",
        "score": 100,
        "durationMs": 978,
        "sample": "SHORT_OK",
        "model": "gpt-5.4"
      },
      {
        "name": "long-context",
        "status": "ok",
        "score": 100,
        "durationMs": 2294,
        "sample": "NEEDLE_42",
        "model": "gpt-5.4"
      },
      {
        "name": "long-output",
        "status": "ok",
        "score": 100,
        "durationMs": 4785,
        "bullets": 40,
        "model": "gpt-5.4"
      },
      {
        "name": "openclaw-sim",
        "status": "ok",
        "score": 100,
        "sample": "- It helps the assistant stay consistent over long interactions, so it can remember prior instructions, tool outputs, constraints, and decisions without drifting or contradicting itself.\n- It improves reliability when using tools across many steps, enabling better planning, accurate state tracking, and fewer errors from forgetting context or misusing earlier results.",
        "durationMs": 2171,
        "model": "gpt-5.4"
      },
      {
        "name": "stability",
        "status": "ok",
        "score": 100,
        "runs": 3,
        "success": 3,
        "avgDurationMs": 1282,
        "model": "gpt-5.4"
      }
    ],
    "connectivityMs": 1047,
    "shortMs": 978,
    "longContextMs": 2294,
    "longOutputMs": 4785,
    "openclawSimMs": 2171,
    "stabilityAvgMs": 1282,
    "resolvedModel": "gpt-5.4",
    "status": "ok"
  },
  {
    "provider": "jlypx",
    "model": "gpt-5.4-mini",
    "probes": [
      {
        "name": "models",
        "status": "ok",
        "score": 100,
        "durationMs": 331,
        "count": 11,
        "sample": [
          "gpt-5",
          "gpt-5-codex",
          "gpt-5.1",
          "gpt-5.1-codex",
          "gpt-5.1-codex-max",
          "gpt-5.1-codex-mini",
          "gpt-5.2",
          "gpt-5.2-codex",
          "gpt-5.3-codex",
          "gpt-5.4"
        ],
        "sampleAll": [
          "gpt-5",
          "gpt-5-codex",
          "gpt-5.1",
          "gpt-5.1-codex",
          "gpt-5.1-codex-max",
          "gpt-5.1-codex-mini",
          "gpt-5.2",
          "gpt-5.2-codex",
          "gpt-5.3-codex",
          "gpt-5.4",
          "gpt-5.4-mini"
        ],
        "names": []
      },
      {
        "name": "connectivity",
        "status": "ok",
        "score": 100,
        "durationMs": 1438,
        "model": "gpt-5.4-mini",
        "configuredModel": "gpt-5.4-mini",
        "message": "basic request succeeded",
        "url": "https://betterclau.de/openai/sub.jlypx.de/v1/chat/completions"
      },
      {
        "name": "short-context",
        "status": "ok",
        "score": 100,
        "durationMs": 926,
        "sample": "SHORT_OK",
        "model": "gpt-5.4-mini"
      },
      {
        "name": "long-context",
        "status": "ok",
        "score": 100,
        "durationMs": 1121,
        "sample": "NEEDLE_42",
        "model": "gpt-5.4-mini"
      },
      {
        "name": "long-output",
        "status": "ok",
        "score": 100,
        "durationMs": 2229,
        "bullets": 40,
        "model": "gpt-5.4-mini"
      },
      {
        "name": "openclaw-sim",
        "status": "ok",
        "score": 100,
        "sample": "- **Keeps tools aligned with the task over long interactions:** In extended conversations, an assistant must remember prior goals, tool results, constraints, and user preferences; if long-context stability is poor, it can lose track of what each tool call is supposed to accomplish and start making inconsistent or redundant actions.\n\n- **Prevents error accumulation in multi-step workflows:** Tool-using assistants often chain several steps together, so small context drift can compound into wrong assumptions, duplicated calls, or missed dependencies; stable long-context handling helps maintain coherent planning and reliable execution from start to finish.",
        "durationMs": 1488,
        "model": "gpt-5.4-mini"
      },
      {
        "name": "stability",
        "status": "ok",
        "score": 100,
        "runs": 3,
        "success": 3,
        "avgDurationMs": 1640,
        "model": "gpt-5.4-mini"
      }
    ],
    "connectivityMs": 1438,
    "shortMs": 926,
    "longContextMs": 1121,
    "longOutputMs": 2229,
    "openclawSimMs": 1488,
    "stabilityAvgMs": 1640,
    "resolvedModel": "gpt-5.4-mini",
    "status": "ok"
  }
]