Da Zhang

👋 Hi, there! Welcome to my blog.

  • I’m an enthusiastic and dedicated Software Engineer.

  • I share some of my study notes on this blog (tech and non-tech).

MoE Architecture Workflow. Generated by AI.

Mixture of Experts (MoE) 架构简介

什么是 Mixture of Experts (MoE) 架构? 在快速发展的人工智能领域,大规模模型不断突破性能极限。其中,一个显著提高计算效率的突破性方法就是 Mixture of Experts (MoE) 架构。MoE 允许模型实现大规模扩展,同时控制计算成本,使其成为深度学习领域的重要创新。 1. 了解 MoE 架构 MoE 本质上是一种 稀疏激活 (Sparse Activation) 的神经网络,它会根据不同的输入动态选择部分参数进行计算。与传统的密集神经网络(每个输入都会激活所有参数)不同,MoE 仅激活部分子网络,从而提高计算效率。 MoE 的关键组成部分: 专家网络 (Experts, 专门化的子网络):一组独立的神经网络,通常是 前馈网络 (Feed-Forward Networks, FFNs),每个专家专注于不同类型的数据。 路由器 (Gating Network, 门控网络):用于决定当前输入应该由哪些专家处理,并为每个专家分配权重。 稀疏激活 (Sparse Activation):每个输入数据仅会激活少量(通常 2-4 个)专家,而不是整个网络,从而降低计算开销。 2. 为什么使用 MoE? MoE 架构相较于传统深度学习模型,具有多个显著优势: 计算效率更高 (Computational Efficiency):由于每次仅使用部分专家,MoE 可以扩展到 千亿级别参数,但计算成本仍保持在合理范围内。 可扩展性强 (Scalability):MoE 允许 AI 模型扩展至 万亿级参数,而不会因计算资源需求过高而受限。 多任务学习能力更强 (Multi-Task Learning):不同的专家可以专注于不同的任务或数据类型,提高泛化能力。 3. MoE 的挑战 尽管 MoE 具有诸多优势,但仍面临一些挑战: 负载均衡 (Load Balancing):某些专家可能被过度使用,而其他专家则很少被调用,导致计算资源浪费。无辅助损失负载均衡 (Auxiliary-Loss-Free Load Balancing)(如 DeepSeek-V3 采用的方案)可以缓解这一问题。 通信开销 (Communication Overhead):在多个 GPU 或计算节点之间高效调度专家需要强大的通信策略。InfiniBand 和 NVLink 优化能够降低通信成本。 路由复杂度 (Routing Complexity):门控机制需要精心设计,以确保每个输入能够匹配最合适的专家。 4. MoE 的应用 MoE 架构已被用于多个前沿 AI 模型,以提升性能并控制计算成本: ...

二月 16, 2025 · 1 分钟 · Da Zhang

常见大模型基准测试

基准测试 主要用途 MMLU (Massive Multitask Language Understanding) 评估模型在57个学科领域的多任务理解能力 HELM (Holistic Evaluation of Language Models) 斯坦福开发的综合评估框架,涵盖多个任务和公平性评估 BIG-Bench (BB) 由谷歌开发,包含超过200个任务的大规模基准测试 BBH (Big-Bench Hard) BIG-Bench的高难度子集,专注于挑战性任务 GSM8K (Grade School Math 8K) 评估基础数学推理能力 MATH 评估高中和大学水平的数学问题解决能力 HumanEval OpenAI开发的编程能力评估基准 ARC (AI2 Reasoning Challenge) 针对推理能力的科学问题测试 C-Eval 专为中文语言模型设计的综合能力评估基准 GLUE/SuperGLUE 评估自然语言理解能力的通用标准 TruthfulQA 测试模型回答的真实性,减少幻觉 FLORES 评估机器翻译能力的多语言基准 AGIEval 测试接近人类认知能力的高难度标准化考试任务 HELLASWAG 评估模型的常识推理和逻辑能力 Winogrande 测试常识推理能力 MT-Bench 评估多轮对话和聊天能力 MLLM Benchmarks (LLaVA) 评估多模态大模型的图像理解能力

二月 10, 2025 · 1 分钟 · Da Zhang

DeepSeek-V3:突破性的创新,让大模型更强更高效

DeepSeek-V3:突破性的创新,让大模型更强更高效 在人工智能领域,DeepSeek-V3 作为最新的开源大模型,不仅在性能上媲美闭源模型,还在多个关键技术领域实现了突破性的创新。本文将深入探讨 DeepSeek-V3 在 架构优化、训练效率、推理加速、强化学习、知识蒸馏 等方面的创新点。 1. Mixture of Experts (MoE) 架构优化 1.1 DeepSeekMoE:更细粒度的专家选择 DeepSeek-V3 采用了 DeepSeekMoE 架构,相比传统的 MoE(如 GShard),引入了共享专家(shared experts),优化计算效率,并减少计算冗余。 Mixture of Experts (MoE) 架构简介 1.2 无辅助损失的负载均衡(Auxiliary-Loss-Free Load Balancing) 传统 MoE 依赖辅助损失(auxiliary loss)来防止专家负载不均,而 DeepSeek-V3 采用了一种动态调整专家偏置的方法,实现更好的负载均衡,提高计算效率。 2. 强化学习优化:Group Relative Policy Optimization (GRPO) DeepSeek-V3 采用了一种新的强化学习优化算法 Group Relative Policy Optimization (GRPO),相比传统的 Proximal Policy Optimization (PPO), 减少计算开销:GRPO 摒弃了大规模 critic 模型,改用 组内得分(group scores) 来估算基线。 更稳定的强化学习过程,提高模型收敛速度。 3. Multi-Token Prediction (MTP) 训练目标 DeepSeek-V3 采用了 多步预测(MTP, Multi-Token Prediction) 方法,使模型一次性预测多个 token,从而提高训练效率和推理速度。 ...

二月 8, 2025 · 1 分钟 · Da Zhang

什么是大语言模型 (LLMs)?

OpenAI 在2022年11月30日发布了ChatGPT 的早期演示,把高级人工智能技术带给了普通大众。这些技术是基于大语言模型(LLMs)。那么LLMs到底是什么,为什么我们要关注它们呢? 什么是大语言模型LLMs (Large Language Models)? 大语言模型(LLMs)是一种人工智能,专门用来理解、生成和处理人类语言。LLMs在大量文本数据上训练,比如书籍、网站和其他书面内容。它们学会了识别语言中的模式,能生成新的文本,不仅相关性强,而且出乎意料地连贯和有创意。 LLMs能为我们做什么? 信息获取和总结: LLMs能快速找到、整理和总结大量文本中的信息,节省从健康问题到产品比较等主题的研究时间。 写作辅助: LLMs能帮你起草邮件、创建内容、编辑文档,建议写作改进,让沟通更有效,省时省力。 学习和教育: LLMs能用简单的语言解释复杂概念,制作个性化学习材料,帮助人们通过互动对话理解难题。 个人组织: LLMs能帮你规划日程、创建待办事项清单、头脑风暴和有条理地整理思路。 创意支持: LLMs能生成创意内容,给项目提建议,帮助克服创意障碍,充当概念发展的讨论伙伴。 任务自动化: LLMs能为简单任务生成代码,协助基本数据分析,帮助自动化重复的数字任务,即使是没有技术背景的人也能使用。 在不远的将来,LLMs很可能会从根本上改变我们的学习、工作和创造方式。随着它们越来越融入我们的日常生活,可能会彻底改变行业,赋能个人,转变我们与信息和技术的互动方式,让生活的许多方面变得更高效和可及。 GPT vs. ChatGPT GPT(Generative Pre-trained Transformer) 是OpenAI开发的基础语言模型,比如GPT-3或GPT-3.5。 ChatGPT是基于GPT模型(例如GPT-3和GPT-3.5)专门打造的对话AI。 ChatGPT是把大型语言模型(LLM)带给大众的一大步。它提供了一个简单易用的界面,方便大家进行日常对话,可以用来回答问题、写内容,甚至解决问题。这种便利性大大减小了复杂AI技术和普通用户之间的距离,开始改变人们对AI的看法和互动方式。 需要注意的局限性 最后,虽然LLM可以根据大数据集中的模式生成文本,但它们缺乏真正的理解能力,可能会产生偏见或不准确的信息(“幻觉 hallucinations”)。 它们在维持长时间对话、运用常识推理和获取实时知识方面也面临挑战。

一月 26, 2023 · 1 分钟 · Da Zhang