👋 Hi, there! Welcome to my blog.
I’m an enthusiastic and dedicated Software Engineer.
I share some of my study notes on this blog (tech and non-tech).
👋 Hi, there! Welcome to my blog.
I’m an enthusiastic and dedicated Software Engineer.
I share some of my study notes on this blog (tech and non-tech).
什么是 Mixture of Experts (MoE) 架构? 在快速发展的人工智能领域,大规模模型不断突破性能极限。其中,一个显著提高计算效率的突破性方法就是 Mixture of Experts (MoE) 架构。MoE 允许模型实现大规模扩展,同时控制计算成本,使其成为深度学习领域的重要创新。 1. 了解 MoE 架构 MoE 本质上是一种 稀疏激活 (Sparse Activation) 的神经网络,它会根据不同的输入动态选择部分参数进行计算。与传统的密集神经网络(每个输入都会激活所有参数)不同,MoE 仅激活部分子网络,从而提高计算效率。 MoE 的关键组成部分: 专家网络 (Experts, 专门化的子网络):一组独立的神经网络,通常是 前馈网络 (Feed-Forward Networks, FFNs),每个专家专注于不同类型的数据。 路由器 (Gating Network, 门控网络):用于决定当前输入应该由哪些专家处理,并为每个专家分配权重。 稀疏激活 (Sparse Activation):每个输入数据仅会激活少量(通常 2-4 个)专家,而不是整个网络,从而降低计算开销。 2. 为什么使用 MoE? MoE 架构相较于传统深度学习模型,具有多个显著优势: 计算效率更高 (Computational Efficiency):由于每次仅使用部分专家,MoE 可以扩展到 千亿级别参数,但计算成本仍保持在合理范围内。 可扩展性强 (Scalability):MoE 允许 AI 模型扩展至 万亿级参数,而不会因计算资源需求过高而受限。 多任务学习能力更强 (Multi-Task Learning):不同的专家可以专注于不同的任务或数据类型,提高泛化能力。 3. MoE 的挑战 尽管 MoE 具有诸多优势,但仍面临一些挑战: 负载均衡 (Load Balancing):某些专家可能被过度使用,而其他专家则很少被调用,导致计算资源浪费。无辅助损失负载均衡 (Auxiliary-Loss-Free Load Balancing)(如 DeepSeek-V3 采用的方案)可以缓解这一问题。 通信开销 (Communication Overhead):在多个 GPU 或计算节点之间高效调度专家需要强大的通信策略。InfiniBand 和 NVLink 优化能够降低通信成本。 路由复杂度 (Routing Complexity):门控机制需要精心设计,以确保每个输入能够匹配最合适的专家。 4. MoE 的应用 MoE 架构已被用于多个前沿 AI 模型,以提升性能并控制计算成本: ...
基准测试 主要用途 MMLU (Massive Multitask Language Understanding) 评估模型在57个学科领域的多任务理解能力 HELM (Holistic Evaluation of Language Models) 斯坦福开发的综合评估框架,涵盖多个任务和公平性评估 BIG-Bench (BB) 由谷歌开发,包含超过200个任务的大规模基准测试 BBH (Big-Bench Hard) BIG-Bench的高难度子集,专注于挑战性任务 GSM8K (Grade School Math 8K) 评估基础数学推理能力 MATH 评估高中和大学水平的数学问题解决能力 HumanEval OpenAI开发的编程能力评估基准 ARC (AI2 Reasoning Challenge) 针对推理能力的科学问题测试 C-Eval 专为中文语言模型设计的综合能力评估基准 GLUE/SuperGLUE 评估自然语言理解能力的通用标准 TruthfulQA 测试模型回答的真实性,减少幻觉 FLORES 评估机器翻译能力的多语言基准 AGIEval 测试接近人类认知能力的高难度标准化考试任务 HELLASWAG 评估模型的常识推理和逻辑能力 Winogrande 测试常识推理能力 MT-Bench 评估多轮对话和聊天能力 MLLM Benchmarks (LLaVA) 评估多模态大模型的图像理解能力
DeepSeek-V3:突破性的创新,让大模型更强更高效 在人工智能领域,DeepSeek-V3 作为最新的开源大模型,不仅在性能上媲美闭源模型,还在多个关键技术领域实现了突破性的创新。本文将深入探讨 DeepSeek-V3 在 架构优化、训练效率、推理加速、强化学习、知识蒸馏 等方面的创新点。 1. Mixture of Experts (MoE) 架构优化 1.1 DeepSeekMoE:更细粒度的专家选择 DeepSeek-V3 采用了 DeepSeekMoE 架构,相比传统的 MoE(如 GShard),引入了共享专家(shared experts),优化计算效率,并减少计算冗余。 Mixture of Experts (MoE) 架构简介 1.2 无辅助损失的负载均衡(Auxiliary-Loss-Free Load Balancing) 传统 MoE 依赖辅助损失(auxiliary loss)来防止专家负载不均,而 DeepSeek-V3 采用了一种动态调整专家偏置的方法,实现更好的负载均衡,提高计算效率。 2. 强化学习优化:Group Relative Policy Optimization (GRPO) DeepSeek-V3 采用了一种新的强化学习优化算法 Group Relative Policy Optimization (GRPO),相比传统的 Proximal Policy Optimization (PPO), 减少计算开销:GRPO 摒弃了大规模 critic 模型,改用 组内得分(group scores) 来估算基线。 更稳定的强化学习过程,提高模型收敛速度。 3. Multi-Token Prediction (MTP) 训练目标 DeepSeek-V3 采用了 多步预测(MTP, Multi-Token Prediction) 方法,使模型一次性预测多个 token,从而提高训练效率和推理速度。 ...
OpenAI 在2022年11月30日发布了ChatGPT 的早期演示,把高级人工智能技术带给了普通大众。这些技术是基于大语言模型(LLMs)。那么LLMs到底是什么,为什么我们要关注它们呢? 什么是大语言模型LLMs (Large Language Models)? 大语言模型(LLMs)是一种人工智能,专门用来理解、生成和处理人类语言。LLMs在大量文本数据上训练,比如书籍、网站和其他书面内容。它们学会了识别语言中的模式,能生成新的文本,不仅相关性强,而且出乎意料地连贯和有创意。 LLMs能为我们做什么? 信息获取和总结: LLMs能快速找到、整理和总结大量文本中的信息,节省从健康问题到产品比较等主题的研究时间。 写作辅助: LLMs能帮你起草邮件、创建内容、编辑文档,建议写作改进,让沟通更有效,省时省力。 学习和教育: LLMs能用简单的语言解释复杂概念,制作个性化学习材料,帮助人们通过互动对话理解难题。 个人组织: LLMs能帮你规划日程、创建待办事项清单、头脑风暴和有条理地整理思路。 创意支持: LLMs能生成创意内容,给项目提建议,帮助克服创意障碍,充当概念发展的讨论伙伴。 任务自动化: LLMs能为简单任务生成代码,协助基本数据分析,帮助自动化重复的数字任务,即使是没有技术背景的人也能使用。 在不远的将来,LLMs很可能会从根本上改变我们的学习、工作和创造方式。随着它们越来越融入我们的日常生活,可能会彻底改变行业,赋能个人,转变我们与信息和技术的互动方式,让生活的许多方面变得更高效和可及。 GPT vs. ChatGPT GPT(Generative Pre-trained Transformer) 是OpenAI开发的基础语言模型,比如GPT-3或GPT-3.5。 ChatGPT是基于GPT模型(例如GPT-3和GPT-3.5)专门打造的对话AI。 ChatGPT是把大型语言模型(LLM)带给大众的一大步。它提供了一个简单易用的界面,方便大家进行日常对话,可以用来回答问题、写内容,甚至解决问题。这种便利性大大减小了复杂AI技术和普通用户之间的距离,开始改变人们对AI的看法和互动方式。 需要注意的局限性 最后,虽然LLM可以根据大数据集中的模式生成文本,但它们缺乏真正的理解能力,可能会产生偏见或不准确的信息(“幻觉 hallucinations”)。 它们在维持长时间对话、运用常识推理和获取实时知识方面也面临挑战。