基准测试主要用途
MMLU (Massive Multitask Language Understanding)评估模型在57个学科领域的多任务理解能力
HELM (Holistic Evaluation of Language Models)斯坦福开发的综合评估框架,涵盖多个任务和公平性评估
BIG-Bench (BB)由谷歌开发,包含超过200个任务的大规模基准测试
BBH (Big-Bench Hard)BIG-Bench的高难度子集,专注于挑战性任务
GSM8K (Grade School Math 8K)评估基础数学推理能力
MATH评估高中和大学水平的数学问题解决能力
HumanEvalOpenAI开发的编程能力评估基准
ARC (AI2 Reasoning Challenge)针对推理能力的科学问题测试
C-Eval专为中文语言模型设计的综合能力评估基准
GLUE/SuperGLUE评估自然语言理解能力的通用标准
TruthfulQA测试模型回答的真实性,减少幻觉
FLORES评估机器翻译能力的多语言基准
AGIEval测试接近人类认知能力的高难度标准化考试任务
HELLASWAG评估模型的常识推理和逻辑能力
Winogrande测试常识推理能力
MT-Bench评估多轮对话和聊天能力
MLLM Benchmarks (LLaVA)评估多模态大模型的图像理解能力