# LiveTradeBench: Seeking Real-World Alpha with Large Language Models

> 原文链接：https://arxiv.org/abs/2511.03628
> 作者/来源：Haofei Yu, Fenghai Li, Jiaxuan You
> 阅读日期：2026-05-06

## 一句话总结
构建实时交易环境评估 LLM 决策能力，揭示静态 benchmark 得分与真实市场表现之间的脱节。

## 核心论点
- 传统静态 benchmark 无法衡量 LLM 在真实不确定环境下的决策能力
- 实时市场交易是一种高度现实、具有经济意义的评估场景
- LMArena 等排行榜上的高分并不能预测交易表现

## 关键概念
- **Live Data Integration**：系统流式接入真实市场价格与新闻，避免离线回测的信息泄露问题
- **Portfolio Management Framework**：从单资产交易扩展到多资产配置，融入风险管理与跨资产推理
- **Multi-Market Testing**：在美股和 Polymarket 预测市场两种结构性不同的市场中测试 agent
- **Alpha**：超越基准的超额收益，用于衡量 LLM 的实际决策价值

## 实践建议
- 评估 LLM 时应设计带有真实反馈回路的动态环境，而非仅依赖静态问答
- 多资产配置测试比单一任务更能揭示模型的推理深度
- 评估周期（50天）需要足够长以捕捉策略的稳定性和适应性

## 独到观点
- 不同 LLM 展现出明显不同的投资风格和风险偏好，这一"个性化"特征在传统 benchmark 中完全不可见
- 该研究本质上在追问：LLM 的"智能"能否转化为可量化的经济价值？

## 与其他文章的关联
- 与 "The Leaderboard Illusion" 呼应：排行榜分数不等于实际能力
- 与 "Measuring What Matters" 相关：构建有效性（construct validity）要求评估场景与真实应用场景匹配
- 与 "Toward Evaluation Science" 的观点一致：需要面向部署场景的评估