# On GPT-4.5

> 原文链接：https://thezvi.substack.com/p/on-gpt-45
> 作者/来源：Zvi Mowshowitz
> 阅读日期：2026-05-06

## 一句话总结
Zvi 对 GPT-4.5 发布的深度分析，通过 benchmark 数据和实际使用体验评估其进步幅度，探讨"更大模型"路线的边际收益递减问题。

## 核心论点
- GPT-4.5 代表了纯 scaling 路线的阶段性成果，但性能提升幅度相对前代有所收窄
- Benchmark 分数的提升不一定对应用户体验的等比例改善
- "Vibes"（主观使用感受）仍然是评估模型升级价值的重要信号
- 评估模型时需区分 capability ceiling 和 reliability floor

## 关键概念
- **Benchmark vs Vibes 差异**：标准测试分数的小幅提升可能在实际使用中体感明显，反之亦然
- **Diminishing returns of scale**：纯粹增大模型参数的边际收益可能在递减
- **EQ vs IQ 的权衡**：GPT-4.5 被 OpenAI 定位为更具"情商"的模型，这在传统 benchmark 中难以体现
- **Evaluation blind spots**：现有 benchmark 未能覆盖"对话质量""创造性""nuance"等维度

## 实践建议
- 不要仅凭 benchmark 数字决定模型切换，需要在自己的使用场景中实际测试
- 关注模型在 edge cases 和 long-tail 任务上的表现，而非平均分
- 对"EQ"类能力的评估需要新方法，传统 benchmark 覆盖不足
- 模型选择应考虑 cost/performance ratio，更大模型不一定是最优选择

## 独到观点
- "Vibes-based evaluation" 视角：承认主观体验作为评估信号的合法性
- 对 OpenAI 市场定位策略的犀利分析：将 4.5 定位为"高 EQ"是否在掩盖 reasoning 能力进步不足
- 指出 benchmark 生态的"军备竞赛"问题：模型针对 benchmark 优化而非真实能力

## 与其他文章的关联
- 与 "AI leaderboards are no longer useful" 的核心批评高度一致
- 与 Sebastian Raschka 四种评估方法文章互补：Zvi 本质上在呼吁更多 real-world evaluation
- 对 benchmark 局限性的讨论可关联 MMLU/MMLU-Pro 等基准的改进动机
