# LM-PUB-QUIZ: A Zero-Shot Evaluation Framework for Language Models

> 原文链接：https://arxiv.org/abs/2408.15729
> 作者/来源：Technical University of Darmstadt
> 阅读日期：2026-05-06

## 一句话总结
提出一种基于知识图谱三元组的零样本 LLM 知识评测方法，通过将关系事实转化为完形填空测试来系统性地探测语言模型存储的世界知识。

## 核心论点
1. 评测 LLM "知道什么"需要超越传统 QA benchmark——后者混淆了知识和推理能力
2. 基于知识图谱的 cloze-style 测试可以精确探测模型对特定事实的掌握
3. 零样本评测避免了 few-shot exemplar 选择带来的不确定性
4. 不同关系类型（一对一、一对多、多对多）的评测需要不同的方法论

## 关键概念
- **Knowledge Probing**：探测 LLM 内部存储的事实性知识
- **Cloze-style Evaluation**：将知识三元组（subject, relation, object）转化为填空测试
- **Relation Template**：将知识图谱关系转化为自然语言 prompt 的模板
- **Zero-shot Probing**：无需示例即可评测模型知识
- **Knowledge Graph Alignment**：将模型输出与结构化知识库对齐评估

## 实践建议
- 使用多个 relation template 变体评测以降低 prompt 格式偏见
- 区分"模型知道但表达不出"和"模型确实不知道"的情况
- 评测知识覆盖时按关系类型分层报告结果
- 将 knowledge probing 与 downstream task 性能关联分析

## 独到观点
- QA benchmark 高分不代表模型"知道"相关知识——可能仅靠浅层模式匹配
- 知识探测应被视为"模型审计"的一部分——了解模型知道什么和不知道什么
- 零样本设计消除了 few-shot 中的信息泄漏风险

## 与其他文章的关联
- 延续了 LAMA probe (Petroni et al., 2019) 的知识探测传统
- 为 lm-evaluation-harness 的知识类 benchmark（如 TriviaQA、Natural Questions）提供了方法论补充
- 与 SCORE (NVIDIA) 论文在关注评测鲁棒性方面有共鸣
- 可与 RAG 评测结合——对比有无 retrieval 时的知识差异
