chaofa用代码打点酱油

Harness Engineering — Agent 不好用，也许不是模型的问题

同一个模型，只改 Agent Harness，性能从 Top 30 到 Top 5。Harness Engineering 到底是什么？和 Context Engineering 什么关系？以及 The Bitter Lesson 再思考。

Kimi K2.5 技术解读：原生多模态联合训练与并行 Agent 编排训练

解读 Kimi K2.5 论文核心技术：原生多模态联合训练的反共识发现（Early Fusion + 低视觉比例优于 Late Fusion）、Zero-Vision SFT、跨模态双向迁移、Agent Swarm 并行编排框架（PARL）、Toggle Token 效率优化。关注算法与数据创新，而非 benchmark 秀肌肉。

2026年03月01日 paper-reading LLM paper multimodal agent

2025，浪潮与拧巴

2025年，乎乎出生，B站技术分享视频播放破百万，也是工作以来最忙碌的一年。在爸爸、打工人、内容创作者的身份间拧巴挣扎，在AI巨浪中试图不做浪潮过后什么也没得到的大多数人。

2026年02月23日年终总结杂谈 chaofa year-summary

Agent 系统中的 Prompt Caching 设计（下）：上下文管理与子代理架构

深入分析 AI Agent 的上下文管理策略：Context Rot 问题、Cache-Safe Compaction、Plan 模式演进、文件系统作为延展记忆、子代理 Cache 友好设计，以及 The Bitter Lesson。

2026年02月22日 hands-on-code agent LLM KV Cache Context Engineering

Agent 系统中的 Prompt Caching 设计（上）：Cache 破坏、Prompt 布局与工具管理

深入分析 AI Agent 为什么比 Chatbot 更需要 Prompt Caching，什么操作会破坏 Cache，以及 Claude Code、Manus、OpenAI Codex 在 Prompt 布局和工具管理上的 Cache-aware 设计实践。

2026年02月22日 hands-on-code agent LLM KV Cache Context Engineering

理解 KV Cache 与 Prompt Caching：LLM 推理加速的核心机制

深入理解 KV Cache 的原理、Prefill/Decode 两阶段与 Compute Bound/Memory Bound 的关系，以及 Prompt Caching（前缀缓存）如何实现推理加速和成本节约。

2026年02月21日 hands-on-code LLM transformer KV Cache

DPO 算法原理与代码实现：让 LLM 对齐变得简单

DPO 让 LLM 对齐训练变得像 SFT 一样简单。本文从 RLHF 痛点讲起，手撕 DPO Loss 核心代码，用 trl 跑通完整训练流程。Bonus 包含稳定性分析和数学推导，一篇搞定 DPO。本文是「动手学大模型」系列第12章 Part2 的配套博客。

2026年01月10日 hands-on-code LLM RLHF DPO

从零手写 RoPE 位置编码：原理、PyTorch 源码实现与可视化理解

深入讲解 RoPE 旋转位置编码的核心原理与 PyTorch 实现。从 2D 旋转矩阵推导相对位置编码，逐行手写代码实现 LLaMA Qwen 风格 RoPE，附热力图可视化帮助理解。适合想彻底搞懂 RoPE 位置编码的开发者。

2026年01月01日 hands-on-code LLM transformer RoPE

Keep Looking, Don't Settle：重听乔布斯演讲（25-11-月度小结）

重听乔布斯斯坦福演讲，发现真正的主题不是"Stay hungry, Stay foolish"，而是"寻找你的热爱"（You’ve got to find what you love）。So keep looking. Don't settle。

2025年12月06日月度总结自媒体公开表达 month-summary

Kimi-K2 和 Kimi-K2-Thinking 深度解读：从预训练优化到 Agentic 能力训练的完整流程（含MuonClip优化、Agentic 数据合成等）

深度解读 Kimi K2 和 K2 Thinking 技术细节：MuonClip 优化方案、大规模 Agentic 数据合成 pipeline、通用强化学习的 Self-Judging 机制，以及 200-300 步工具调用的 Test-Time Scaling。从预训练到后训练，揭秘月之暗面如何打造 SOTA 开源 Thinking 模型。

2025年11月09日 paper-reading LLM paper