Agent 系统中的 Prompt Caching 设计(下):上下文管理与子代理架构
深入分析 AI Agent 的上下文管理策略:Context Rot 问题、Cache-Safe Compaction、Plan 模式演进、文件系统作为延展记忆、子代理 Cache 友好设计,以及 The Bitter Lesson。
深入分析 AI Agent 的上下文管理策略:Context Rot 问题、Cache-Safe Compaction、Plan 模式演进、文件系统作为延展记忆、子代理 Cache 友好设计,以及 The Bitter Lesson。
深入分析 AI Agent 为什么比 Chatbot 更需要 Prompt Caching,什么操作会破坏 Cache,以及 Claude Code、Manus、OpenAI Codex 在 Prompt 布局和工具管理上的 Cache-aware 设计实践。
深入理解 KV Cache 的原理、Prefill/Decode 两阶段与 Compute Bound/Memory Bound 的关系,以及 Prompt Caching(前缀缓存)如何实现推理加速和成本节约。
DPO 让 LLM 对齐训练变得像 SFT 一样简单。本文从 RLHF 痛点讲起,手撕 DPO Loss 核心代码,用 trl 跑通完整训练流程。Bonus 包含稳定性分析和数学推导,一篇搞定 DPO。本文是「动手学大模型」系列第12章 Part2 的配套博客。
深入讲解 RoPE 旋转位置编码的核心原理与 PyTorch 实现。从 2D 旋转矩阵推导相对位置编码,逐行手写代码实现 LLaMA Qwen 风格 RoPE,附热力图可视化帮助理解。适合想彻底搞懂 RoPE 位置编码的开发者。
本文深入剖析RAG技术的进化历程,从传统RAG到智能体RAG的全面升级。探索两种实现Agentic RAG的关键路径:提示工程+工具调用与强化学习驱动方法。通过解读企业级项目chatbox和Search-R1,揭示如何让大模型从"被动检索"转变为"主动决策",实现更精准的知识获取与应用。无论你是AI研发工程师还是产品经理,这篇文章都将帮你理解RAG技术的未来发展方向,掌握构建更智能RAG系统的核心技术。
从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA(Multi-head Latent Attention)算法的核心思想,如何通过矩阵吸收来优化 KV Cache。
从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA(Multi-head Latent Attention)算法的核心思想、ROPE 位置编码的兼容性问题,以及如何通过矩阵吸收来优化 KV Cache。
本文详细介绍了三种不同版本的混合专家模型(Mixture of Experts, MoE)实现,从基础到进阶,帮助读者全面理解 MoE 在大语言模型中的应用。主要内容包括:1. 基础版 MoE:使用简单的线性层作为专家,理解 MoE 的基本工作原理; 2. SparseMoE:大模型训练中常用的稀疏 MoE 实现,基于 Switch Transformers 的设计;3. SharedExpert SparseMoE:参考 DeepSeek 的改进版本,引入共享专家机制。文章提供了完整的 PyTorch 实现代码,包括模型定义、路由机制、负载均衡损失计算以及训练流程。同时设置了扩展性练习,帮助读者深入理解 MoE 的工作机制和优化方向。
主要介绍了从基础的 ReLU 到 GELU,再到现代大语言模型中广泛使用的 SwishGLU 的发展过程, 介绍了深度学习中激活函数演进历程。文章详细讲解了各个激活函数的数学原理和实现方式,并重点分析了 SwishGLU 如何结合 Swish 激活函数和 GLU 门控单元的优点。同时,文章还提供了完整的 PyTorch 代码实现,展示了如何在神经网络中使用这些激活函数,特别是在大语言模型的 FFN(前馈神经网络)层中的应用。对于想要深入理解现代深度学习模型架构的开发者和研究者来说,这是一份很有价值的参考资料。
了解注意力机制变体,包括MHA(Multi-Head Attention)、MQA(Multi-Query Attention)和GQA(Group Query Attention)。通过手写代码实现,探讨三种注意力机制的异同,以及GQA在推理性能优化方面的优势。
用 PyTorch 实现从零实现 LoRA, 理解 LoRA 的原理,主要是为了展示一个 LoRA 实现的细节
手写一个 Causal Language Model,或者说简化版的 transformer 中的 decoder。
在 AI 相关的面试中,经常会有面试官让写 self-attention,但是 transformer 这篇文章其实包含很多的细节,因此可能面试官对于 self-attention 实现到什么程度是有不同的预期。因此这里想通过写不同版本的 self-attention 实现来达到不同面试官的预期,四个不同的版本,对应不同的细节程度。