Agent 系统中的 Prompt Caching 设计(下):上下文管理与子代理架构
深入分析 AI Agent 的上下文管理策略:Context Rot 问题、Cache-Safe Compaction、Plan 模式演进、文件系统作为延展记忆、子代理 Cache 友好设计,以及 The Bitter Lesson。
深入分析 AI Agent 的上下文管理策略:Context Rot 问题、Cache-Safe Compaction、Plan 模式演进、文件系统作为延展记忆、子代理 Cache 友好设计,以及 The Bitter Lesson。
深入分析 AI Agent 为什么比 Chatbot 更需要 Prompt Caching,什么操作会破坏 Cache,以及 Claude Code、Manus、OpenAI Codex 在 Prompt 布局和工具管理上的 Cache-aware 设计实践。
深入理解 KV Cache 的原理、Prefill/Decode 两阶段与 Compute Bound/Memory Bound 的关系,以及 Prompt Caching(前缀缓存)如何实现推理加速和成本节约。
DPO 让 LLM 对齐训练变得像 SFT 一样简单。本文从 RLHF 痛点讲起,手撕 DPO Loss 核心代码,用 trl 跑通完整训练流程。Bonus 包含稳定性分析和数学推导,一篇搞定 DPO。本文是「动手学大模型」系列第12章 Part2 的配套博客。
深入讲解 RoPE 旋转位置编码的核心原理与 PyTorch 实现。从 2D 旋转矩阵推导相对位置编码,逐行手写代码实现 LLaMA Qwen 风格 RoPE,附热力图可视化帮助理解。适合想彻底搞懂 RoPE 位置编码的开发者。
深度解读 Kimi K2 和 K2 Thinking 技术细节:MuonClip 优化方案、大规模 Agentic 数据合成 pipeline、通用强化学习的 Self-Judging 机制,以及 200-300 步工具调用的 Test-Time Scaling。从预训练到后训练,揭秘月之暗面如何打造 SOTA 开源 Thinking 模型。
本文深入剖析RAG技术的进化历程,从传统RAG到智能体RAG的全面升级。探索两种实现Agentic RAG的关键路径:提示工程+工具调用与强化学习驱动方法。通过解读企业级项目chatbox和Search-R1,揭示如何让大模型从"被动检索"转变为"主动决策",实现更精准的知识获取与应用。无论你是AI研发工程师还是产品经理,这篇文章都将帮你理解RAG技术的未来发展方向,掌握构建更智能RAG系统的核心技术。
深入解读 Gemini 2.5 技术报告,分析多模态、长上下文与思考能力等核心突破,结合个人理解与行业趋势,快速掌握最新大模型技术发展。
深入分析三个快慢思考模型的实现:阿里Qwen3通过SFT实现的混合思考、字节AdaCoT基于RL的帕累托最优化、清华AdaThinking的受限优化框架。详细解读代码实现、训练方法和实验效果,探讨如何让模型在保持准确率的同时减少不必要的思考过程。对于想了解大模型推理优化的读者很有帮助。
DeepSeek团队提出全新通用奖励模型DeepSeek-GRM,通过Self-Principled Critique Tuning(SPCT)方法实现推理时动态扩展能力。该研究突破传统规则奖励模型的局限,在角色扮演、创意写作等开放领域展现卓越性能。27B小模型效果超越340B大模型,且具备更少领域偏差。文章详解训练策略(RFT+在线强化学习)和推理优化(投票机制+元奖励引导),实验结果证实推理时扩展可显著提升效果,这是 DeepSeek-R2 的前兆吗?
从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA(Multi-head Latent Attention)算法的核心思想,如何通过矩阵吸收来优化 KV Cache。
深度解读 Kimi K1.5 论文,介绍其多模态推理模型的技术原理与发展路线,涵盖预训练、监督微调、强化学习及其核心启发,提供详细的算法处理细节和数据构建方法。
从自顶向下的方式深度解读 DeepSeek-R1 论文,介绍其技术原理与发展路线,涵盖 DeepSeek-R1-Zero、DeepSeek-R1 及其蒸馏模型的训练方法和核心启发。
从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA(Multi-head Latent Attention)算法的核心思想、ROPE 位置编码的兼容性问题,以及如何通过矩阵吸收来优化 KV Cache。
三种不同的方式部署大模型(deepseek r1),分别是 ollama, LM Studio 和 vllm,从个人测试部署到工业产品使用,让你一次性掌握大模型的不同部署方式。
根据模型的参数大小,预估模型训练和推理过程中的显存占用情况,包括参数占用显存大小、优化器占用显存大小...KV Cache 和 中间激活值的计算方式
利用 Git 的 includeIf 配置,为不同的项目设置不同的配置,通过子文件夹 .gitconfig 覆盖 Git 的 Global 相关配置,比如 name,email 等。
python typing tutorial 高级篇。这篇文章介绍了 Python 类型的一些高级用法,包括 protocol, override, overload, forwardref, generator... 通过实际案例解释了每一种类型的使用场景和使用建议。
python typing tutorial 中级篇。这篇文章介绍了 Python Class Variable 可以使用 ClassVar 定义一个只能由 Class 修改的类变量,并且介绍了 Self 类型;此外,着重了解 TypedDict 如何定义特定 Key 的字典类型,了解 Required 和 NotRequired 的区别;然后介绍 Python Generic Type(泛型)的写法,明确了 Python 3.12 之后方括号 [T] 注释的写法,以及如何在 3.12 版本以前通过 TypeVar 定义通用类型;最后介绍了 Literal 和 Callable 两个重要且基础的 Python 类型。
python typing tutorial 基础篇。本篇文章介绍了 Python 基础类型、容器类型、 Python function 如何写类型注释,此外详细讲解了常见 Python Type 常见的关键字,包括 Union, Any, Optional, TypeAlias(type), NewType, Final,通过这 5 个最常用的关键字类型增强我们类型注释的表达能力。
Raycast使用指南第一篇,介绍raycast基本用法,包括文件应用查找,剪贴板历史,窗口管理等功能
使用python导出flomo数据,让flomo更好用,联动 obsidian/logseq 等本地 markdown 知识管理工具
倒排索引原因与python实现(1)
NER上分利器:实体边界重定位;Don’t Eclipse Your Arts Due to Small Discrepancies: Boundary Repositioning with a Pointer Network for Aspect Extraction
用Python实现蓄水池算法
使用简单方法增加Query召回的多样性
木棒折两次构成三角形的概率-证明加代码实现
Transition-based Directed Graph Construction for Emotion-Cause Pair Extraction
Must-read Papers on Emotion-Cause Pair Extraction
关于隐马尔可夫模型(HMM),需要知道什么?
分词算法,最大匹配,分词应用实例。
分词算法,最大匹配,前向最大匹配,后向最大匹配,双向最大匹配算法的实现。