Esc

Post (32 篇文章)

RAG 进化之路:传统 RAG 到工具与强化学习双轮驱动的 Agentic RAG

本文深入剖析RAG技术的进化历程,从传统RAG到智能体RAG的全面升级。探索两种实现Agentic RAG的关键路径:提示工程+工具调用与强化学习驱动方法。通过解读企业级项目chatbox和Search-R1,揭示如何让大模型从"被动检索"转变为"主动决策",实现更精准的知识获取与应用。无论你是AI研发工程师还是产品经理,这篇文章都将帮你理解RAG技术的未来发展方向,掌握构建更智能RAG系统的核心技术。

hands-on-code agent LLM

自适应快慢思考推理模型(Adaptive Reasoning Model):Qwen3混合思考->字节AdaCoT->清华AdaptThinking

深入分析三个快慢思考模型的实现:阿里Qwen3通过SFT实现的混合思考、字节AdaCoT基于RL的帕累托最优化、清华AdaThinking的受限优化框架。详细解读代码实现、训练方法和实验效果,探讨如何让模型在保持准确率的同时减少不必要的思考过程。对于想了解大模型推理优化的读者很有帮助。

paper-reading LLM paper

DeepSeek-GRM:Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型)

DeepSeek团队提出全新通用奖励模型DeepSeek-GRM,通过Self-Principled Critique Tuning(SPCT)方法实现推理时动态扩展能力。该研究突破传统规则奖励模型的局限,在角色扮演、创意写作等开放领域展现卓越性能。27B小模型效果超越340B大模型,且具备更少领域偏差。文章详解训练策略(RFT+在线强化学习)和推理优化(投票机制+元奖励引导),实验结果证实推理时扩展可显著提升效果,这是 DeepSeek-R2 的前兆吗?

paper-reading LLM paper

Python 类型体操训练(二)-- 中级篇

python typing tutorial 中级篇。这篇文章介绍了 Python Class Variable 可以使用 ClassVar 定义一个只能由 Class 修改的类变量,并且介绍了 Self 类型;此外,着重了解 TypedDict 如何定义特定 Key 的字典类型,了解 Required 和 NotRequired 的区别;然后介绍 Python Generic Type(泛型)的写法,明确了 Python 3.12 之后方括号 [T] 注释的写法,以及如何在 3.12 版本以前通过 TypeVar 定义通用类型;最后介绍了 Literal 和 Callable 两个重要且基础的 Python 类型。

python-type-challenge python-typing-tutorial python-type-tutorial