# LiveCodeBench Pro: LLMs in Competitive Programming

> 原文链接：https://arxiv.org/abs/2506.11928
> 作者/来源：arXiv (2025)
> 阅读日期：2026-05-06

## 一句话总结
LiveCodeBench 的进阶版本，使用竞赛编程难题评估 LLM 的高级算法推理和代码生成能力，通过持续更新避免数据污染。

## 核心论点
- 竞赛编程是评估 LLM 高级推理能力的优质 proxy
- 动态更新（使用最新竞赛题）是避免数据污染的有效策略
- Pro 版本增加了更高难度的题目以区分前沿模型
- 代码正确性可通过执行验证获得客观评分

## 关键概念
- **Dynamic Benchmark**：持续从最新编程竞赛中获取新题目
- **Contamination Resistance**：时间戳机制确保模型未见过测试数据
- **Execution-based Verification**：通过运行代码和测试用例客观评判
- **Difficulty Scaling**：从简单到 IOI/ICPC 级别的难度梯度
- **Pass@k Metric**：k 次尝试中至少一次通过的概率

## 实践建议
1. 代码评估优先使用 execution-based 方法而非模式匹配
2. 动态 benchmark 是对抗数据污染的最佳策略
3. 难度分层有助于识别模型的能力边界
4. 关注 pass@1 vs pass@k 反映的可靠性差异

## 独到观点
"活的 benchmark"理念——通过持续注入新题目保持评估的新鲜度和有效性，这是对静态 benchmark 污染问题的根本性解决方案。

## 与其他文章的关联
- 与 SWE-Bench 在代码能力评估上互补（竞赛 vs 工程）
- 动态更新策略回应了 LMSys decontaminator 和 "AI leaderboards" 的污染担忧
- pass@k metric 与 Anthropic agent evals 中的讨论一致