Esc

标签: LLM

RAG 进化之路:传统 RAG 到工具与强化学习双轮驱动的 Agentic RAG

本文深入剖析RAG技术的进化历程,从传统RAG到智能体RAG的全面升级。探索两种实现Agentic RAG的关键路径:提示工程+工具调用与强化学习驱动方法。通过解读企业级项目chatbox和Search-R1,揭示如何让大模型从"被动检索"转变为"主动决策",实现更精准的知识获取与应用。无论你是AI研发工程师还是产品经理,这篇文章都将帮你理解RAG技术的未来发展方向,掌握构建更智能RAG系统的核心技术。

hands-on-code agent LLM

自适应快慢思考推理模型(Adaptive Reasoning Model):Qwen3混合思考->字节AdaCoT->清华AdaptThinking

深入分析三个快慢思考模型的实现:阿里Qwen3通过SFT实现的混合思考、字节AdaCoT基于RL的帕累托最优化、清华AdaThinking的受限优化框架。详细解读代码实现、训练方法和实验效果,探讨如何让模型在保持准确率的同时减少不必要的思考过程。对于想了解大模型推理优化的读者很有帮助。

paper-reading LLM paper

DeepSeek-GRM:Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型)

DeepSeek团队提出全新通用奖励模型DeepSeek-GRM,通过Self-Principled Critique Tuning(SPCT)方法实现推理时动态扩展能力。该研究突破传统规则奖励模型的局限,在角色扮演、创意写作等开放领域展现卓越性能。27B小模型效果超越340B大模型,且具备更少领域偏差。文章详解训练策略(RFT+在线强化学习)和推理优化(投票机制+元奖励引导),实验结果证实推理时扩展可显著提升效果,这是 DeepSeek-R2 的前兆吗?

paper-reading LLM paper

LLM MOE的进化之路,从普通简化 MOE,到 sparse moe,再到 deepseek 使用的 share_expert sparse moe

本文详细介绍了三种不同版本的混合专家模型(Mixture of Experts, MoE)实现,从基础到进阶,帮助读者全面理解 MoE 在大语言模型中的应用。主要内容包括:1. 基础版 MoE:使用简单的线性层作为专家,理解 MoE 的基本工作原理; 2. SparseMoE:大模型训练中常用的稀疏 MoE 实现,基于 Switch Transformers 的设计;3. SharedExpert SparseMoE:参考 DeepSeek 的改进版本,引入共享专家机制。文章提供了完整的 PyTorch 实现代码,包括模型定义、路由机制、负载均衡损失计算以及训练流程。同时设置了扩展性练习,帮助读者深入理解 MoE 的工作机制和优化方向。

hands-on-code llms-zero-to-hero transformer LLM

LLM activate function激活函数的进化之路,从 ReLU,GELU 到 SwiGLU(swishGLU)

主要介绍了从基础的 ReLU 到 GELU,再到现代大语言模型中广泛使用的 SwishGLU 的发展过程, 介绍了深度学习中激活函数演进历程。文章详细讲解了各个激活函数的数学原理和实现方式,并重点分析了 SwishGLU 如何结合 Swish 激活函数和 GLU 门控单元的优点。同时,文章还提供了完整的 PyTorch 代码实现,展示了如何在神经网络中使用这些激活函数,特别是在大语言模型的 FFN(前馈神经网络)层中的应用。对于想要深入理解现代深度学习模型架构的开发者和研究者来说,这是一份很有价值的参考资料。

hands-on-code llms-zero-to-hero transformer LLM

手写 Self-Attention 的四重境界,从 self-attention 到 multi-head self-attention

在 AI 相关的面试中,经常会有面试官让写 self-attention,但是 transformer 这篇文章其实包含很多的细节,因此可能面试官对于 self-attention 实现到什么程度是有不同的预期。因此这里想通过写不同版本的 self-attention 实现来达到不同面试官的预期,四个不同的版本,对应不同的细节程度。

hands-on-code transformer LLM