标签: paper

Agent Harness 1 Coding Agent 1 Context Engineering 3 DPO 1 ECPE 2 Harness Engineering 1 KV Cache 3 LLM 23 NER 1 RLHF 1 RoPE 1 agent 5 chaofa 9 git 1 month-summary 10 multimodal 1 paper 7 python-type-tutorial 3 python-typing-tutorial 3 transformer 12 year-summary 1 倒排索引 1 入门算法 1 公开表达 4 关于我 1 分词 3 友链 1 实体识别 1 工作 2 序列标注 1 我的朋友 1 搜索技术 1 数学题 1 杂谈 38 算法妙用 2 算法实现 1 自媒体 4 面试锦囊 2

Kimi K2.5 技术解读：原生多模态联合训练与并行 Agent 编排训练

解读 Kimi K2.5 论文核心技术：原生多模态联合训练的反共识发现（Early Fusion + 低视觉比例优于 Late Fusion）、Zero-Vision SFT、跨模态双向迁移、Agent Swarm 并行编排框架（PARL）、Toggle Token 效率优化。关注算法与数据创新，而非 benchmark 秀肌肉。

2026年03月01日 paper-reading LLM paper multimodal agent

Kimi-K2 和 Kimi-K2-Thinking 深度解读：从预训练优化到 Agentic 能力训练的完整流程（含MuonClip优化、Agentic 数据合成等）

深度解读 Kimi K2 和 K2 Thinking 技术细节：MuonClip 优化方案、大规模 Agentic 数据合成 pipeline、通用强化学习的 Self-Judging 机制，以及 200-300 步工具调用的 Test-Time Scaling。从预训练到后训练，揭秘月之暗面如何打造 SOTA 开源 Thinking 模型。

2025年11月09日 paper-reading LLM paper

Gemini 2.5 Pro 是怎么炼成的？-- gemini 2.5 技术报告阅读笔记与思考

深入解读 Gemini 2.5 技术报告，分析多模态、长上下文与思考能力等核心突破，结合个人理解与行业趋势，快速掌握最新大模型技术发展。

2025年07月13日 paper-reading LLM paper

自适应快慢思考推理模型（Adaptive Reasoning Model）：Qwen3混合思考->字节AdaCoT->清华AdaptThinking

深入分析三个快慢思考模型的实现：阿里Qwen3通过SFT实现的混合思考、字节AdaCoT基于RL的帕累托最优化、清华AdaThinking的受限优化框架。详细解读代码实现、训练方法和实验效果，探讨如何让模型在保持准确率的同时减少不必要的思考过程。对于想了解大模型推理优化的读者很有帮助。

2025年05月25日 paper-reading LLM paper

DeepSeek-GRM：Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型)

DeepSeek团队提出全新通用奖励模型DeepSeek-GRM，通过Self-Principled Critique Tuning（SPCT）方法实现推理时动态扩展能力。该研究突破传统规则奖励模型的局限，在角色扮演、创意写作等开放领域展现卓越性能。27B小模型效果超越340B大模型，且具备更少领域偏差。文章详解训练策略（RFT+在线强化学习）和推理优化（投票机制+元奖励引导），实验结果证实推理时扩展可显著提升效果，这是 DeepSeek-R2 的前兆吗？

2025年05月03日 paper-reading LLM paper

深度解读 Kimi-K1.5，真正了解 RL 数据是怎么筛选的

深度解读 Kimi K1.5 论文，介绍其多模态推理模型的技术原理与发展路线，涵盖预训练、监督微调、强化学习及其核心启发，提供详细的算法处理细节和数据构建方法。

2025年03月01日 paper-reading LLM paper

自顶向下方式深度解读 DeepSeek-R1，内含大量细节

从自顶向下的方式深度解读 DeepSeek-R1 论文，介绍其技术原理与发展路线，涵盖 DeepSeek-R1-Zero、DeepSeek-R1 及其蒸馏模型的训练方法和核心启发。

2025年02月22日 paper-reading LLM paper

Chaofa Yuan

袁朝发的个人技术博客，做了一个播客叫做《逃逸速度》，喜欢折腾各种各样的事情，业余野生视频博主，专业大模型算法工程师，尝试做一些有意义的事情

82 归档 82 文章 16 分类 38 标签