标签: transformer

Context Engineering 2 DPO 1 ECPE 2 KV Cache 3 LLM 22 NER 1 RLHF 1 RoPE 1 agent 3 chaofa 8 git 1 month-summary 10 paper 6 python-type-tutorial 3 python-typing-tutorial 3 transformer 12 倒排索引 1 入门算法 1 公开表达 4 关于我 1 分词 3 友链 1 实体识别 1 工作 2 序列标注 1 我的朋友 1 搜索技术 1 数学题 1 杂谈 37 算法妙用 2 算法实现 1 自媒体 4 面试锦囊 2

理解 KV Cache 与 Prompt Caching：LLM 推理加速的核心机制

深入理解 KV Cache 的原理、Prefill/Decode 两阶段与 Compute Bound/Memory Bound 的关系，以及 Prompt Caching（前缀缓存）如何实现推理加速和成本节约。

2026年02月21日 hands-on-code LLM transformer KV Cache

从零手写 RoPE 位置编码：原理、PyTorch 源码实现与可视化理解

深入讲解 RoPE 旋转位置编码的核心原理与 PyTorch 实现。从 2D 旋转矩阵推导相对位置编码，逐行手写代码实现 LLaMA Qwen 风格 RoPE，附热力图可视化帮助理解。适合想彻底搞懂 RoPE 位置编码的开发者。

2026年01月01日 hands-on-code LLM transformer RoPE

MLA(2)：从代码和公式角度理解 DeepSeek MLA 的矩阵吸收 (Projection Absorption)

从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA（Multi-head Latent Attention）算法的核心思想，如何通过矩阵吸收来优化 KV Cache。

2025年03月16日 hands-on-code transformer LLM

MLA(1)：从代码角度学习和彻底理解 DeepSeek MLA 算法

从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA（Multi-head Latent Attention）算法的核心思想、ROPE 位置编码的兼容性问题，以及如何通过矩阵吸收来优化 KV Cache。

2025年02月05日 hands-on-code transformer LLM

DeepSeek-R1大模型本地部署的三种方式，总有一种适合你

三种不同的方式部署大模型（deepseek r1），分别是 ollama, LM Studio 和 vllm，从个人测试部署到工业产品使用，让你一次性掌握大模型的不同部署方式。

2025年02月03日 LLM transformer

LLM MOE的进化之路，从普通简化 MOE，到 sparse moe，再到 deepseek 使用的 share_expert sparse moe

本文详细介绍了三种不同版本的混合专家模型(Mixture of Experts, MoE)实现，从基础到进阶，帮助读者全面理解 MoE 在大语言模型中的应用。主要内容包括：1. 基础版 MoE：使用简单的线性层作为专家，理解 MoE 的基本工作原理; 2. SparseMoE：大模型训练中常用的稀疏 MoE 实现，基于 Switch Transformers 的设计;3. SharedExpert SparseMoE：参考 DeepSeek 的改进版本，引入共享专家机制。文章提供了完整的 PyTorch 实现代码，包括模型定义、路由机制、负载均衡损失计算以及训练流程。同时设置了扩展性练习，帮助读者深入理解 MoE 的工作机制和优化方向。

2025年01月27日 hands-on-code llms-zero-to-hero transformer LLM

LLM activate function激活函数的进化之路，从 ReLU，GELU 到 SwiGLU(swishGLU)

主要介绍了从基础的 ReLU 到 GELU，再到现代大语言模型中广泛使用的 SwishGLU 的发展过程, 介绍了深度学习中激活函数演进历程。文章详细讲解了各个激活函数的数学原理和实现方式，并重点分析了 SwishGLU 如何结合 Swish 激活函数和 GLU 门控单元的优点。同时，文章还提供了完整的 PyTorch 代码实现，展示了如何在神经网络中使用这些激活函数，特别是在大语言模型的 FFN（前馈神经网络）层中的应用。对于想要深入理解现代深度学习模型架构的开发者和研究者来说，这是一份很有价值的参考资料。

2025年01月27日 hands-on-code llms-zero-to-hero transformer LLM

标签: transformer

理解 KV Cache 与 Prompt Caching：LLM 推理加速的核心机制

从零手写 RoPE 位置编码：原理、PyTorch 源码实现与可视化理解

MLA(2)：从代码和公式角度理解 DeepSeek MLA 的矩阵吸收 (Projection Absorption)

MLA(1)：从代码角度学习和彻底理解 DeepSeek MLA 算法

DeepSeek-R1大模型本地部署的三种方式，总有一种适合你

LLM MOE的进化之路，从普通简化 MOE，到 sparse moe，再到 deepseek 使用的 share_expert sparse moe

LLM activate function激活函数的进化之路，从 ReLU，GELU 到 SwiGLU(swishGLU)

手写大模型组件之Group Query Attention，从 MHA，MQA 到 GQA

LoRA 原理和 PyTorch 代码实现

LLM 大模型训练-推理显存占用分析

手写 transformer decoder（CausalLM）

手写 Self-Attention 的四重境界，从 self-attention 到 multi-head self-attention