常见大模型基准测试

基准测试	主要用途
MMLU (Massive Multitask Language Understanding)	评估模型在57个学科领域的多任务理解能力
HELM (Holistic Evaluation of Language Models)	斯坦福开发的综合评估框架，涵盖多个任务和公平性评估
BIG-Bench (BB)	由谷歌开发，包含超过200个任务的大规模基准测试
BBH (Big-Bench Hard)	BIG-Bench的高难度子集，专注于挑战性任务
GSM8K (Grade School Math 8K)	评估基础数学推理能力
MATH	评估高中和大学水平的数学问题解决能力
HumanEval	OpenAI开发的编程能力评估基准
ARC (AI2 Reasoning Challenge)	针对推理能力的科学问题测试
C-Eval	专为中文语言模型设计的综合能力评估基准
GLUE/SuperGLUE	评估自然语言理解能力的通用标准
TruthfulQA	测试模型回答的真实性，减少幻觉
FLORES	评估机器翻译能力的多语言基准
AGIEval	测试接近人类认知能力的高难度标准化考试任务
HELLASWAG	评估模型的常识推理和逻辑能力
Winogrande	测试常识推理能力
MT-Bench	评估多轮对话和聊天能力
MLLM Benchmarks (LLaVA)	评估多模态大模型的图像理解能力