Harness Engineering — Agent 不好用,也许不是模型的问题
同一个模型,只改 Agent Harness,性能从 Top 30 到 Top 5。Harness Engineering 到底是什么?和 Context Engineering 什么关系?以及 The Bitter Lesson 再思考。
同一个模型,只改 Agent Harness,性能从 Top 30 到 Top 5。Harness Engineering 到底是什么?和 Context Engineering 什么关系?以及 The Bitter Lesson 再思考。
解读 Kimi K2.5 论文核心技术:原生多模态联合训练的反共识发现(Early Fusion + 低视觉比例优于 Late Fusion)、Zero-Vision SFT、跨模态双向迁移、Agent Swarm 并行编排框架(PARL)、Toggle Token 效率优化。关注算法与数据创新,而非 benchmark 秀肌肉。
2025年,乎乎出生,B站技术分享视频播放破百万,也是工作以来最忙碌的一年。在爸爸、打工人、内容创作者的身份间拧巴挣扎,在AI巨浪中试图不做浪潮过后什么也没得到的大多数人。
深入分析 AI Agent 的上下文管理策略:Context Rot 问题、Cache-Safe Compaction、Plan 模式演进、文件系统作为延展记忆、子代理 Cache 友好设计,以及 The Bitter Lesson。
深入分析 AI Agent 为什么比 Chatbot 更需要 Prompt Caching,什么操作会破坏 Cache,以及 Claude Code、Manus、OpenAI Codex 在 Prompt 布局和工具管理上的 Cache-aware 设计实践。
深入理解 KV Cache 的原理、Prefill/Decode 两阶段与 Compute Bound/Memory Bound 的关系,以及 Prompt Caching(前缀缓存)如何实现推理加速和成本节约。
DPO 让 LLM 对齐训练变得像 SFT 一样简单。本文从 RLHF 痛点讲起,手撕 DPO Loss 核心代码,用 trl 跑通完整训练流程。Bonus 包含稳定性分析和数学推导,一篇搞定 DPO。本文是「动手学大模型」系列第12章 Part2 的配套博客。
深入讲解 RoPE 旋转位置编码的核心原理与 PyTorch 实现。从 2D 旋转矩阵推导相对位置编码,逐行手写代码实现 LLaMA Qwen 风格 RoPE,附热力图可视化帮助理解。适合想彻底搞懂 RoPE 位置编码的开发者。