常见大模型基准测试

基准测试 主要用途 MMLU (Massive Multitask Language Understanding) 评估模型在57个学科领域的多任务理解能力 HELM (Holistic Evaluation of Language Models) 斯坦福开发的综合评估框架,涵盖多个任务和公平性评估 BIG-Bench (BB) 由谷歌开发,包含超过200个任务的大规模基准测试 BBH (Big-Bench Hard) BIG-Bench的高难度子集,专注于挑战性任务 GSM8K (Grade School Math 8K) 评估基础数学推理能力 MATH 评估高中和大学水平的数学问题解决能力 HumanEval OpenAI开发的编程能力评估基准 ARC (AI2 Reasoning Challenge) 针对推理能力的科学问题测试 C-Eval 专为中文语言模型设计的综合能力评估基准 GLUE/SuperGLUE 评估自然语言理解能力的通用标准 TruthfulQA 测试模型回答的真实性,减少幻觉 FLORES 评估机器翻译能力的多语言基准 AGIEval 测试接近人类认知能力的高难度标准化考试任务 HELLASWAG 评估模型的常识推理和逻辑能力 Winogrande 测试常识推理能力 MT-Bench 评估多轮对话和聊天能力 MLLM Benchmarks (LLaVA) 评估多模态大模型的图像理解能力

二月 10, 2025 · 1 分钟 · Da Zhang