MMLU (Massive Multitask Language Understanding) | 评估模型在57个学科领域的多任务理解能力 |
HELM (Holistic Evaluation of Language Models) | 斯坦福开发的综合评估框架,涵盖多个任务和公平性评估 |
BIG-Bench (BB) | 由谷歌开发,包含超过200个任务的大规模基准测试 |
BBH (Big-Bench Hard) | BIG-Bench的高难度子集,专注于挑战性任务 |
GSM8K (Grade School Math 8K) | 评估基础数学推理能力 |
MATH | 评估高中和大学水平的数学问题解决能力 |
HumanEval | OpenAI开发的编程能力评估基准 |
ARC (AI2 Reasoning Challenge) | 针对推理能力的科学问题测试 |
C-Eval | 专为中文语言模型设计的综合能力评估基准 |
GLUE/SuperGLUE | 评估自然语言理解能力的通用标准 |
TruthfulQA | 测试模型回答的真实性,减少幻觉 |
FLORES | 评估机器翻译能力的多语言基准 |
AGIEval | 测试接近人类认知能力的高难度标准化考试任务 |
HELLASWAG | 评估模型的常识推理和逻辑能力 |
Winogrande | 测试常识推理能力 |
MT-Bench | 评估多轮对话和聊天能力 |
MLLM Benchmarks (LLaVA) | 评估多模态大模型的图像理解能力 |