Agent 系统中的 Prompt Caching 设计(下):上下文管理与子代理架构
深入分析 AI Agent 的上下文管理策略:Context Rot 问题、Cache-Safe Compaction、Plan 模式演进、文件系统作为延展记忆、子代理 Cache 友好设计,以及 The Bitter Lesson。
深入分析 AI Agent 的上下文管理策略:Context Rot 问题、Cache-Safe Compaction、Plan 模式演进、文件系统作为延展记忆、子代理 Cache 友好设计,以及 The Bitter Lesson。
深入分析 AI Agent 为什么比 Chatbot 更需要 Prompt Caching,什么操作会破坏 Cache,以及 Claude Code、Manus、OpenAI Codex 在 Prompt 布局和工具管理上的 Cache-aware 设计实践。
深入理解 KV Cache 的原理、Prefill/Decode 两阶段与 Compute Bound/Memory Bound 的关系,以及 Prompt Caching(前缀缓存)如何实现推理加速和成本节约。
DPO 让 LLM 对齐训练变得像 SFT 一样简单。本文从 RLHF 痛点讲起,手撕 DPO Loss 核心代码,用 trl 跑通完整训练流程。Bonus 包含稳定性分析和数学推导,一篇搞定 DPO。本文是「动手学大模型」系列第12章 Part2 的配套博客。
深入讲解 RoPE 旋转位置编码的核心原理与 PyTorch 实现。从 2D 旋转矩阵推导相对位置编码,逐行手写代码实现 LLaMA Qwen 风格 RoPE,附热力图可视化帮助理解。适合想彻底搞懂 RoPE 位置编码的开发者。
重听乔布斯斯坦福演讲,发现真正的主题不是"Stay hungry, Stay foolish",而是"寻找你的热爱"(You’ve got to find what you love)。So keep looking. Don't settle。
深度解读 Kimi K2 和 K2 Thinking 技术细节:MuonClip 优化方案、大规模 Agentic 数据合成 pipeline、通用强化学习的 Self-Judging 机制,以及 200-300 步工具调用的 Test-Time Scaling。从预训练到后训练,揭秘月之暗面如何打造 SOTA 开源 Thinking 模型。
深度解析影视飓风TIM的成功路径,从精力管理、数据驱动、商业变现到家庭支持四个维度,反思自媒体发展困境。一个技术博主的真实思考:如何在理想主义与商业化之间找到平衡?来自一线技术从业者的深度思考,为内容创作者提供实用启发
孙宇晨的'合法赚钱的高尚性'理念,让我重新审视了自己对财富与价值的认知。本文分享我在公开表达创作与高压工作时的真实挣扎,以及如何在坚持初心与商业化之间寻找平衡,以及我对Q4人生与职业规划的坦诚反思。
本文深入剖析RAG技术的进化历程,从传统RAG到智能体RAG的全面升级。探索两种实现Agentic RAG的关键路径:提示工程+工具调用与强化学习驱动方法。通过解读企业级项目chatbox和Search-R1,揭示如何让大模型从"被动检索"转变为"主动决策",实现更精准的知识获取与应用。无论你是AI研发工程师还是产品经理,这篇文章都将帮你理解RAG技术的未来发展方向,掌握构建更智能RAG系统的核心技术。