# TrustLLM: Trustworthiness in Large Language Models

> 原文链接：https://arxiv.org/abs/2401.05561
> 作者/来源：arXiv (2024)
> 阅读日期：2026-05-06

## 一句话总结
提出 LLM 可信度（Trustworthiness）的综合评估框架，涵盖真实性、安全性、公平性、鲁棒性、隐私和道德六个维度。

## 核心论点
- LLM 的"好"不仅是能力强，还包括可信、安全、公平
- 可信度是多维度概念，需要系统性框架而非单一指标
- 能力与可信度之间存在复杂的权衡关系
- 行业需要统一的可信度评估标准

## 关键概念
- **Six Dimensions**：Truthfulness、Safety、Fairness、Robustness、Privacy、Ethics
- **Truthfulness**：信息的事实准确性和不编造
- **Safety**：不生成有害内容和抵抗恶意使用
- **Fairness**：对不同群体的平等对待
- **Robustness**：面对对抗性输入的稳定性
- **Privacy**：不泄露个人或敏感信息
- **Ethics**：符合道德规范的行为

## 实践建议
1. 产品评估应包含可信度维度，不仅关注能力
2. 六个维度可根据应用场景确定优先级
3. Safety 和 Privacy 通常是部署的硬性门槛
4. 定期进行可信度回归测试，防止能力优化损害可信度

## 独到观点
框架揭示了能力-安全的 tension：提升某些维度可能损害另一些。例如，过度的 safety 训练可能降低 helpfulness，过度强调 privacy 可能限制有用的功能。

## 与其他文章的关联
- 与 Anthropic political even-handedness 在 Fairness 维度相关
- 与 DeepMind Frontier Safety Framework 在 Safety 维度互补
- Truthfulness 维度可用 SimpleQA/FACTS Grounding 评估
- 为 Humanloop 优化路线图增加了约束维度