Post | chaofa用代码打点酱油

Harness Engineering — Agent 不好用，也许不是模型的问题

同一个模型，只改 Agent Harness，性能从 Top 30 到 Top 5。Harness Engineering 到底是什么？和 Context Engineering 什么关系？以及 The Bitter Lesson 再思考。

2026年03月14日 agent system design agent Agent Harness Harness Engineering Context Engineering Coding Agent

Kimi K2.5 技术解读：原生多模态联合训练与并行 Agent 编排训练

解读 Kimi K2.5 论文核心技术：原生多模态联合训练的反共识发现（Early Fusion + 低视觉比例优于 Late Fusion）、Zero-Vision SFT、跨模态双向迁移、Agent Swarm 并行编排框架（PARL）、Toggle Token 效率优化。关注算法与数据创新，而非 benchmark 秀肌肉。

2026年03月01日 paper-reading LLM paper multimodal agent

Agent 系统中的 Prompt Caching 设计（下）：上下文管理与子代理架构

深入分析 AI Agent 的上下文管理策略：Context Rot 问题、Cache-Safe Compaction、Plan 模式演进、文件系统作为延展记忆、子代理 Cache 友好设计，以及 The Bitter Lesson。

2026年02月22日 agent system design agent LLM KV Cache Context Engineering

Agent 系统中的 Prompt Caching 设计（上）：Cache 破坏、Prompt 布局与工具管理

深入分析 AI Agent 为什么比 Chatbot 更需要 Prompt Caching，什么操作会破坏 Cache，以及 Claude Code、Manus、OpenAI Codex 在 Prompt 布局和工具管理上的 Cache-aware 设计实践。

2026年02月22日 agent system design agent LLM KV Cache Context Engineering

理解 KV Cache 与 Prompt Caching：LLM 推理加速的核心机制

深入理解 KV Cache 的原理、Prefill/Decode 两阶段与 Compute Bound/Memory Bound 的关系，以及 Prompt Caching（前缀缓存）如何实现推理加速和成本节约。

2026年02月21日 agent system design LLM transformer KV Cache

DPO 算法原理与代码实现：让 LLM 对齐变得简单

DPO 让 LLM 对齐训练变得像 SFT 一样简单。本文从 RLHF 痛点讲起，手撕 DPO Loss 核心代码，用 trl 跑通完整训练流程。Bonus 包含稳定性分析和数学推导，一篇搞定 DPO。本文是「动手学大模型」系列第12章 Part2 的配套博客。

2026年01月10日 hands-on-code LLM RLHF DPO

从零手写 RoPE 位置编码：原理、PyTorch 源码实现与可视化理解

深入讲解 RoPE 旋转位置编码的核心原理与 PyTorch 实现。从 2D 旋转矩阵推导相对位置编码，逐行手写代码实现 LLaMA Qwen 风格 RoPE，附热力图可视化帮助理解。适合想彻底搞懂 RoPE 位置编码的开发者。

2026年01月01日 hands-on-code LLM transformer RoPE

Kimi-K2 和 Kimi-K2-Thinking 深度解读：从预训练优化到 Agentic 能力训练的完整流程（含MuonClip优化、Agentic 数据合成等）

深度解读 Kimi K2 和 K2 Thinking 技术细节：MuonClip 优化方案、大规模 Agentic 数据合成 pipeline、通用强化学习的 Self-Judging 机制，以及 200-300 步工具调用的 Test-Time Scaling。从预训练到后训练，揭秘月之暗面如何打造 SOTA 开源 Thinking 模型。

2025年11月09日 paper-reading LLM paper

RAG 进化之路：传统 RAG 到工具与强化学习双轮驱动的 Agentic RAG

本文深入剖析RAG技术的进化历程，从传统RAG到智能体RAG的全面升级。探索两种实现Agentic RAG的关键路径：提示工程+工具调用与强化学习驱动方法。通过解读企业级项目chatbox和Search-R1，揭示如何让大模型从"被动检索"转变为"主动决策"，实现更精准的知识获取与应用。无论你是AI研发工程师还是产品经理，这篇文章都将帮你理解RAG技术的未来发展方向，掌握构建更智能RAG系统的核心技术。

2025年10月03日 hands-on-code agent LLM

Gemini 2.5 Pro 是怎么炼成的？-- gemini 2.5 技术报告阅读笔记与思考

深入解读 Gemini 2.5 技术报告，分析多模态、长上下文与思考能力等核心突破，结合个人理解与行业趋势，快速掌握最新大模型技术发展。

2025年07月13日 paper-reading LLM paper

自适应快慢思考推理模型（Adaptive Reasoning Model）：Qwen3混合思考->字节AdaCoT->清华AdaptThinking

深入分析三个快慢思考模型的实现：阿里Qwen3通过SFT实现的混合思考、字节AdaCoT基于RL的帕累托最优化、清华AdaThinking的受限优化框架。详细解读代码实现、训练方法和实验效果，探讨如何让模型在保持准确率的同时减少不必要的思考过程。对于想了解大模型推理优化的读者很有帮助。

2025年05月25日 paper-reading LLM paper

DeepSeek-GRM：Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型)

DeepSeek团队提出全新通用奖励模型DeepSeek-GRM，通过Self-Principled Critique Tuning（SPCT）方法实现推理时动态扩展能力。该研究突破传统规则奖励模型的局限，在角色扮演、创意写作等开放领域展现卓越性能。27B小模型效果超越340B大模型，且具备更少领域偏差。文章详解训练策略（RFT+在线强化学习）和推理优化（投票机制+元奖励引导），实验结果证实推理时扩展可显著提升效果，这是 DeepSeek-R2 的前兆吗？

2025年05月03日 paper-reading LLM paper

MLA(2)：从代码和公式角度理解 DeepSeek MLA 的矩阵吸收 (Projection Absorption)

从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA（Multi-head Latent Attention）算法的核心思想，如何通过矩阵吸收来优化 KV Cache。

2025年03月16日 hands-on-code transformer LLM

深度解读 Kimi-K1.5，真正了解 RL 数据是怎么筛选的

深度解读 Kimi K1.5 论文，介绍其多模态推理模型的技术原理与发展路线，涵盖预训练、监督微调、强化学习及其核心启发，提供详细的算法处理细节和数据构建方法。

2025年03月01日 paper-reading LLM paper

自顶向下方式深度解读 DeepSeek-R1，内含大量细节

从自顶向下的方式深度解读 DeepSeek-R1 论文，介绍其技术原理与发展路线，涵盖 DeepSeek-R1-Zero、DeepSeek-R1 及其蒸馏模型的训练方法和核心启发。

2025年02月22日 paper-reading LLM paper

MLA(1)：从代码角度学习和彻底理解 DeepSeek MLA 算法

从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA（Multi-head Latent Attention）算法的核心思想、ROPE 位置编码的兼容性问题，以及如何通过矩阵吸收来优化 KV Cache。

2025年02月05日 hands-on-code transformer LLM

DeepSeek-R1大模型本地部署的三种方式，总有一种适合你

三种不同的方式部署大模型（deepseek r1），分别是 ollama, LM Studio 和 vllm，从个人测试部署到工业产品使用，让你一次性掌握大模型的不同部署方式。

2025年02月03日 LLM transformer

LLM MOE的进化之路，从普通简化 MOE，到 sparse moe，再到 deepseek 使用的 share_expert sparse moe

本文详细介绍了三种不同版本的混合专家模型(Mixture of Experts, MoE)实现，从基础到进阶，帮助读者全面理解 MoE 在大语言模型中的应用。主要内容包括：1. 基础版 MoE：使用简单的线性层作为专家，理解 MoE 的基本工作原理; 2. SparseMoE：大模型训练中常用的稀疏 MoE 实现，基于 Switch Transformers 的设计;3. SharedExpert SparseMoE：参考 DeepSeek 的改进版本，引入共享专家机制。文章提供了完整的 PyTorch 实现代码，包括模型定义、路由机制、负载均衡损失计算以及训练流程。同时设置了扩展性练习，帮助读者深入理解 MoE 的工作机制和优化方向。

2025年01月27日 hands-on-code transformer LLM

LLM activate function激活函数的进化之路，从 ReLU，GELU 到 SwiGLU(swishGLU)

主要介绍了从基础的 ReLU 到 GELU，再到现代大语言模型中广泛使用的 SwishGLU 的发展过程, 介绍了深度学习中激活函数演进历程。文章详细讲解了各个激活函数的数学原理和实现方式，并重点分析了 SwishGLU 如何结合 Swish 激活函数和 GLU 门控单元的优点。同时，文章还提供了完整的 PyTorch 代码实现，展示了如何在神经网络中使用这些激活函数，特别是在大语言模型的 FFN（前馈神经网络）层中的应用。对于想要深入理解现代深度学习模型架构的开发者和研究者来说，这是一份很有价值的参考资料。

2025年01月27日 hands-on-code transformer LLM

LLM 大模型训练-推理显存占用分析

根据模型的参数大小，预估模型训练和推理过程中的显存占用情况，包括参数占用显存大小、优化器占用显存大小...KV Cache 和中间激活值的计算方式

2024年10月06日 LLM transformer

项目隔离，不同的项目使用不同的 Git 配置

利用 Git 的 includeIf 配置，为不同的项目设置不同的配置，通过子文件夹 .gitconfig 覆盖 Git 的 Global 相关配置，比如 name，email 等。

2024年08月30日 git

Python 类型体操训练（三）-- 高级篇

python typing tutorial 高级篇。这篇文章介绍了 Python 类型的一些高级用法，包括 protocol, override, overload, forwardref, generator... 通过实际案例解释了每一种类型的使用场景和使用建议。

2023年12月11日 python-type-challenge python-typing-tutorial python-type-tutorial

Python 类型体操训练（二）-- 中级篇

python typing tutorial 中级篇。这篇文章介绍了 Python Class Variable 可以使用 ClassVar 定义一个只能由 Class 修改的类变量，并且介绍了 Self 类型；此外，着重了解 TypedDict 如何定义特定 Key 的字典类型，了解 Required 和 NotRequired 的区别；然后介绍 Python Generic Type（泛型）的写法，明确了 Python 3.12 之后方括号 [T] 注释的写法，以及如何在 3.12 版本以前通过 TypeVar 定义通用类型；最后介绍了 Literal 和 Callable 两个重要且基础的 Python 类型。

2023年12月10日 python-type-challenge python-typing-tutorial python-type-tutorial

Post (36 篇文章)

Harness Engineering — Agent 不好用，也许不是模型的问题

Kimi K2.5 技术解读：原生多模态联合训练与并行 Agent 编排训练

Agent 系统中的 Prompt Caching 设计（下）：上下文管理与子代理架构

Agent 系统中的 Prompt Caching 设计（上）：Cache 破坏、Prompt 布局与工具管理

理解 KV Cache 与 Prompt Caching：LLM 推理加速的核心机制

DPO 算法原理与代码实现：让 LLM 对齐变得简单

从零手写 RoPE 位置编码：原理、PyTorch 源码实现与可视化理解

Kimi-K2 和 Kimi-K2-Thinking 深度解读：从预训练优化到 Agentic 能力训练的完整流程（含MuonClip优化、Agentic 数据合成等）

RAG 进化之路：传统 RAG 到工具与强化学习双轮驱动的 Agentic RAG

Gemini 2.5 Pro 是怎么炼成的？-- gemini 2.5 技术报告阅读笔记与思考

自适应快慢思考推理模型（Adaptive Reasoning Model）：Qwen3混合思考->字节AdaCoT->清华AdaptThinking

DeepSeek-GRM：Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型)

MLA(2)：从代码和公式角度理解 DeepSeek MLA 的矩阵吸收 (Projection Absorption)

深度解读 Kimi-K1.5，真正了解 RL 数据是怎么筛选的

自顶向下方式深度解读 DeepSeek-R1，内含大量细节

MLA(1)：从代码角度学习和彻底理解 DeepSeek MLA 算法

DeepSeek-R1大模型本地部署的三种方式，总有一种适合你

LLM MOE的进化之路，从普通简化 MOE，到 sparse moe，再到 deepseek 使用的 share_expert sparse moe

LLM activate function激活函数的进化之路，从 ReLU，GELU 到 SwiGLU(swishGLU)

LLM 大模型训练-推理显存占用分析

项目隔离，不同的项目使用不同的 Git 配置

Python 类型体操训练（三）-- 高级篇

Python 类型体操训练（二）-- 中级篇

Python 类型体操训练（一）-- 基础篇

Raycast使用指南（一）--基本用法

让 flomo 更好用，将 flomo 笔记导出为 markdown 格式

倒排索引原理与python实现

NER上分利器：实体边界重定位

Python实现蓄水池算法

简单方法增加Query召回的多样性

01之间均匀分区取两点构成三角形的概率-证明加代码实现

Transition-based Directed Graph Construction for Emotion-Cause Pair Extraction (中文介绍)

Must-read Papers on Emotion-Cause Pair Extraction（achieved）

关于隐马尔可夫模型(HMM)，需要知道什么？

深度学习时代，分词算法的真实应用实例

2020年了，还有必要学习分词算法吗？