chaofa用代码打点酱油

2025-05-35岁之前赚不到一千万是我的错吗？

Mon, 02 Jun 2025 12:18:00 GMT

1. 承担 5% 的责任

接近 5 月底的时候，刷 twitter 的时候看到徐冲浪的一个帖子^[1]，让我直接破防，好想知道切实可行的做法让我能赚到这个钱。就 Part 1 来说，里面的条件几乎都满足了。小镇青年、一直在一线大厂，工作也很努力，学历也不差，一技之长（写代码），也没有离谱投资和创业，但是离这个目标远得有点离谱。哪怕算上未来的通胀、非线性的增长，甚至出现奇迹般的狗屎运，也几乎无法达到这个目标。所以到底是哪里出了问题呢？😭😭 我进行了一点点的反思？

互联网高增长时代过去

就以较为熟悉的腾讯为例，在 N 年前，每年有普调，偶尔来点超预期的调薪发股票，
但是自从我入职之后，就取消了普调；甚至因为所谓的互联网寒冬，升职几乎不调薪；并在之后更是取消了升职和调薪的关系。
此外，对于后来人更让人不爽的是低职级也变得 1 年 1 答辩才能晋升，以前那种升职的状态几乎不存在了。而我还算是幸运的升职都是在政策变动前，并且每一次答辩都过了，但是由于调薪和升职脱钩，一点也没有享受到升职带来的财富增长。
当然也有东西是增长的——弥漫在身边的焦虑。

还未到来的运气
- 近些年做了一些事情之后，我的心态发生了一些根本性的改变，想要做成一件事情，规划、努力、运气缺一不可，而且运气的占比可能有 90%[2]。
- 就以我在 B 站、YouTube 公共科普的大模型教程为例，内容是否能获得广泛的传播中的随机性无比巨大，一个制作精良、内容详实的视频播放量可能远低于蹭热点的结果。
- 图片中也提到【命运总会垂青你几次】，这个运气可能暂时还没有到来，或者说我大一转专业的时候就已经用掉了（但要达到图中所言，所需要更多的运气）。
自身能力的局限性
- 尽管大环境确实在近几年肉眼可见变差，但作为计算机行业，而且是搞 AI 大模型的，我其实也不应该抱怨环境的问题，至少比其他行业还是好不少^[3]。因此我重点反思自己的问题，自身能力的局限性。
- 就像上一篇文章提到的，努力会让自己觉得充实、踏实，但绝不是做好事情最重要的因素，如果自身资质一般，结果应该也可能不尽如人意吧。（但是，这也确实就是唯一自己能控制的了）
综上，我觉得在 35 岁之前，绝绝绝大多数完全符合图中条件的人不可能达到这个目标，但是最多也就承担 5% 的责任吧。

2. 金钱的分量

作为业余偶尔在 B 站创作大模型知识科普的内容创作者，我目前创作最大的目的还是满足自己的虚荣心^[4]，以我自己为例，在 B 站视频本身是自身学习知识的一种外溢，我在日常的工作学习中需要跟踪前沿技术，因此我一定会需要自己学习 DeepSeek-R1，OpenManus原理，大模型混合思考等相关的技术^[5]。

但是，创作内容也是有一定的成本，我本可以休息的周末时间就会被创作挤占，而在商业化不足的情况下很难长期坚持创作。这里核心讲一下我对此的看法：「如果想要正常运营一个频道，一定需要合理的商业化，不然这个频道一定走不远；而目前大多数的创作者能坚持创作大多因为满足兴趣驱动以及主业有收入这两个点；但同样的金钱（金额）有不同的分量」。

同样的金钱却是有着不一样的分量。还是以我自己为例，B 站有 20k+ 关注者，极偶尔情况下会有一些商业合作请求，

但是如果这些请求不是我自己想做的，或者说脱离了我目前创作学习的主线，我是完全不可能专门为商业化定制做视频，因为我可能会想：有这个时间我不如再深入学习一下强化学习的知识，过硬的专业知识技能才能未来安身立命的根本 [6]，短暂随机的收入就如同买彩票。

但是如果这些请求本身就是我自己想做的，那么哪怕它商业价值很低，我也可以接受。就以端午发布的视频为例，我接受了清华大学出版社的推广《强化学习的数学原理》，这是因为我自己就在学习这些知识，我觉得写得还不错，而且在 GitHub 上面有 9k+ Stars。这是我的榜样，因为我最一开始做视频其实就是想练练表达能力，最后也出一个大模型相关的电子书。因此我也第一次做了一个定制化的商业推广视频，但实际上才 500 块钱，而这 500 在我心中的分量却更高。

3. 工作、投资、生活

💪工作上，有一个活水的同学加入，一起做 Agent 应用相关的事情，无论上精神压力还是业务层面压力都小了很多，加油吧，另外一点是，团队又进行了一些架构上的调整。

🤣投资上，阿里和拼多多在财报后均跌 20%左右，我还能说什么呢。Chaofa, it is not the place you should be. 但是，希望很重要，因为真的快要回本了

😭生活上，我好像没有什么生活，This is so pathetic for me and dot(my wife). 今年觉得比以前更无聊了不知道是不是因为今年没锻炼了。（诶，找到自己的兴趣爱好真的很重要

首先科普一下该博主身份，金融圈大佬，优秀的内容创作者，某不可言说数字货币的交易员，大致可认为早已财富自由了。徐冲浪在 B 站上商业简史的视频，视频很专业，值得学习。 ↩︎
这里不是想强调运气重要所以其他不重要。观点是：正是因为运气如此不可控，我们才更应该做好自己能控制的事情。 ↩︎
这里主要是针对冲浪大佬的帖子进行写作的，毕竟事实层面作为一个互联网行业从业者其实现在也比其他行业好一些，相对于父母还是有非常非常大的改善。 ↩︎
在小宇宙有和硬地骇客做了一期对谈——为什么要公开表达 ↩︎
这也是为什么近几个月视频基本都是一些较为前沿，但是体系化不足的内容。但是其实更想做体系化，有更长期消费和学习价值的内容。 ↩︎
我记得学车辆的算法工程是有一段时间签名是：知识不足以改变命运，但是稀缺的知识可以，但是最近发现稀缺的知识也不行。（我也开始这么怀疑了🤔🤔） ↩︎

自适应快慢思考推理模型（Adaptive Reasoning Model）：Qwen3混合思考->字节AdaCoT->清华AdaptThinking

Sun, 25 May 2025 20:01:20 GMT

1. 背景

OpenAI O 系列发布之后，Inference Time Scaling 的模型一直备受关注，这种具有长思考能力的模型倍称为：Large Reasoning Model（LRM）。所谓的长思考能力指得是 Long Chain-of-Thought（LongCoT），和大家在 Prompt Engeering 中常见的 CoT 技巧是一样的，比如告诉模型 Let's think it step-by-step 或者 You should think about it deeply before you give final answer，而 LongCoT 指的是模型可以输出【更长的思考过程】。

思考更长通常意味着更好的效果，但是也同样意味着推理耗时更长。但很显然，并不是所有的问题都需要模型进行很长的思考，就像人类处理问题一样，简单的东西可以快速回答，但是复杂的问题才需要打草稿进行更久的思考之后再给出回复。因此这种【快慢思考（fast-slow-thinking）】或者【混合思考（thinking-nonthinking mixed）】的方式成了业界新发力的方向。这样可以减少不必要的推理消耗而不损害模型的最终效果。

下面介绍三篇文章如何处理这种混合思考模式。

阿里巴巴通义实验室的 Qwen3 混合思考方式
- Qwen3 Technical Report。
字节跳动 Seed 提出的 AdaCoT 的自适应（adaptive）CoT 方式。
- AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning
清华大学提出的 AdaThinking 框架。
- AdaptThink: Reasoning Models Can Learn When to Think
- 备注：AdaCoT 和 AdaThinking 出发点几乎一模一样，都可以用下面这个图表示（from adathinking）。

[!NOTE] 本文首发于chaofa用代码打点酱油的个人 Blog，后续有更新会优先更新于 Blog 中，原文链接自适应快慢思考推理模型：Qwen3混合思考->字节AdaCoT->清华AdaThinking，也会同步到同名公众号-chaofa用代码打点酱油（仅同步）

如果不喜欢看文字的朋友，也可以看 B站、YouTube 上的视频解读。

2. 阿里 Qwen3 混合思考

Qwen3 的整体训练流程如下图所示：

一共有四个阶段，其中思考混合模式（Thinking Mode Fusion）位于第三个阶段，其实也就是对应着 Supervised Fine-Tuning（SFT）阶段。因此很显然 Qwen3 混合思考的能力主要来源于 SFT，这也是区别于另外两篇文章的地方。

首先如果让聪明的读者来做这个事情，可能也能想到要【构造混合思考的训练数据，然后通过 Prompt 指示模型进行思考或者不思考】，因为 OpenChat 在 23年九月份的 OpenChat: Advancing Open-source Language Models with Mixed-Quality Data 就有类似的思想。因此核心就是构造具有思考、以及没有思考的数据。

2.1 训练

2.1.1 （主）SFT 数据构造

构造一个混合思考的 system template，如下所示

如果训练数据需要思考，那么在 user query 后面加上 /think 表示符号，然后模型需要填充 {thinking_content} 内容；而如果不需要思考，则在 user query 后加上 /no_think，就让模型思考标签中的内容变成（要保证 non-thinking 数据多样性）。这样构造出这样的 SFT 数据之后，模型就初步具备了混合思考的能力。

其他细节：thinking 部分的数据，是用 stage 2 中的 reasoning model 从 stage1 中冷启动数据做拒绝采样得到的.

另外还有一个自发涌现出来的能力（Thinking Budget）：当模型训练完了之后，我们可以根据用户设置的 max_tokens 手动终止思考过程，当快接近 max_tokens 的时候，拼接一句： Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n.\n\n 然后让模型接着生成，模型就能做最终的回复，并且效果还不错。

2.1.2 强化学习RL

在第 4 阶段通用 R L的过程中，其他数据怎么处理的我们在本文中暂不介绍，感兴趣可以看 Qwen3 Technical Report。我们仅介绍和 Thinking Mode Fusion 相关的。具体是：

前面 SFT 做了模型的混合 thinking 数据训练之后，模型也不一定完全遵循，因此为了强化模型对于 /think 或者 /no_think 指令的遵循，RL 阶段又加了 format-following 的格式奖励。

user query 中有 /think 的时候，模型的回复需要时 a lot of thinking final respone
user query 中有 /no_think 的时候，模型的回复需要时 final respone，注意⚠️：这里的 think xml 中是没有内容的。

2.1.3 推理

从刚刚的训练数据中，我们也可以推测出模型推理是怎么做的，有两种方式：

方式1：手动在 system_prompt 或者 user_query（instruction) 末尾添加 /think 或者 /no_think 标签。这样模型可以自发判断要不要填充思考内容到 thinking_content 中。
方式2：如果你不想模型思考，那么在 tokenizer 的时候设置 enable_thinking=False，那么 Tokenizer template 会主动把用户 query后面设置 \n\n。

我们用的比较多的是： chat api，但实际上模型只会 predict next token，所以正常的输入是

messages = [
    {"role": "system", "content": "你是 qwen3，你是很有用的助手。"},
    {"role": "user", "content": "chaofa用代码打点酱油是谁？。"},
    {"role": "assistant": "chaofa用代码打点酱油似乎是一个专注于 LLM 的算法工程师，业余在 B站/YouTube 分享视频~"}
]

然后模型经过 tokenizer 之后，就会变成：

<|im_start|>system
你是 qwen3，你是很有用的助手。<|im_end|>
<|im_start|>user
chaofa用代码打点酱油是谁？<|im_end|>
<|im_start|>assistant（模型从这里开始 predict next token)
chaofa用代码打点酱油似乎是一个专注于 LLM 的算法工程师，业余在 B站/YouTube 分享视频~<|im_end|>

因此如果enable_thinking=False，那么 Tokenizer 之后的输入为.

<|im_start|>system
你是 qwen3，你是很有用的助手。<|im_end|>
<|im_start|>user
chaofa用代码打点酱油是谁？<|im_end|>
<|im_start|>assistant
\n\n（模型从这里开始 predict next token)

如果enable_thinking=True，那么 Tokenizer 之后的输入为：

<|im_start|>system
你是 qwen3，你是很有用的助手。<|im_end|>
<|im_start|>user
chaofa用代码打点酱油是谁？<|im_end|>
<|im_start|>assistant（模型从这里开始 predict next token)

到这里，我们让模型自发的学会了混合思考的能力，

方式1：只不过我们需要手动在 prompt 中写上 /think 或者 /no_think 来启动或者终止思考。
方式2：当模型不加 enable_thinking=False 的时候，模型默认思考，加了之后默认不思考。

发现问题没有，模型并不会主动知道什么时候应该思考，什么时候不应该，这都是人在控制的？而下面两篇文章就是就是让模型自己学会【要不要思考】。

3. 字节Seed AdaCoT

再来回顾一个这个图，我们希望模型主动触发思考和非思考的过程，而不是像 qwen3 一样，需要人为控制。

AdaCoT 这里是把是否要输出 CoT（思考过程 Thinking）当做一个多目标帕累托最优的方式。直观解释，我们优化两个目标，分别是 a. 最少输出 CoT，b. 最大化效果，但一个好了之后另外一个就可能变差，那我们就是希望找到某个点，在最小化输出 CoT 的时候最大化模型效果，用公式表示如下：

\theta^\ast = \arg\max_\theta\{\lambda_P \cdot P(\theta) - \lambda_T \cdot T(\theta)\} \tag{1}

其中 $P(\theta)$ 是模型得分（最终的评估的分数，比如是否代码是否通过）， $T(\theta)$ 是激活 CoT 的次数，因此我们可以设置不同的 $\lambda_{P}$ 和 $\lambda_{T}$ 来得到最大的的值，两个 $\lambda$ 是超参数，在文中实现了四组参数。

3.1 训练

3.1.1 SFT 冷启动

为了让模型能快速知道什么时候应该用 think or CoT，什么时候不该，最简单方式就是造一批数据让模型做冷启动。

首先，找一批数据，用一个额外的模型使用 Prompt 的方式判断一条数据使用 CoT 有没有增益，只要是能遵循指令遵循的 Model 都可以做冷启动数据产生的作用。Example Prompt:

Given a dialogue between a user and an AI assistant , please consider the conversation context and , from the AI assistant ' s perspective , assess the difficulty of answering the user ' s final question according to the following requirements . 
< AI assistant ' s system prompt - Start >
{ system_prompt } 
< AI assistant ' s system prompt - End > 
< Dialogue history - Start >: 
{ history } 
< Dialogue history - End > 
< User ' s final question - Start > 
{ last_prompt } 
< User ' s final question - End >

## 评估步骤
1. 仔细阅读, 理解问题
2. 评估 question 的难度，xxx
3. 输出需要按照特定的格式

## 评估准则
- 需要深度思考。
	- 需要多步才能输出最终的答案
	- 需要一个有逻辑的思考
	- ....
- 不需要深度思考
	- 这个问题很简单，我可以直接回答
	- 基本常识
	- ...

## 输出格式
仅输出下面两者之一，不要给任何解释：
- 需要深度思考
- 不需要深度思考

用这个 prompt 构造出两种模式的训练数据，最终数据变成两种

有思考的数据。 question + 详细的思考过程final response
- 备注：这里的【详细思考过程】我倾向于是一个其他的思考模型生成的，也可能是人标注的。但具体怎么来的文章没说
没有思考的数据。 question + final answer
- 保持 think xml 可以保证回复格式一致性，有助于模型能力保持。

备注：这个是非常有意义的，因为 RL 只是提高 pass@1 score，而不会显著提高 pass@k score，也就是说 RL 只是提高了正确答案出现的概率。因此如果基础模型就不好，RL 效果也会好。

3.1.2 （主）RL 训练

PPO 训练

这里用的是 PPO 算法。因此需要一个 Reward Model，具体的 Reward function 设置如下

R(x,r) = R_{\text{base}}(x,r) - \alpha_1 \cdot P_{\text{miss}}(x,r) - \alpha_2 \cdot P_{\text{over}}(x,r) - \gamma \cdot P_{\text{fmt}}(r) \tag{2}

$x$ 是 user query， $r$ 是 model response， $P$ 都是二元奖励或惩罚，也就是只能是 0 / 1， $P_{miss}(x, r)$ 表示缺少思考， $P_{over}(x, r)$ 表示不应该思考的时候思考了， $P_{fmt}(x, r)$ 是格式奖励。最重要的 $R_{base}(x, r)$ 表示当前回复的质量打分，典型的 Model-based Reward Model。

其他细节并不是很清楚，既然写了是 PPO 算法，那么大概率也是 Follow PPO 优化算法公式，如下：

\begin{align*} L^{\text{KL+CLIP}}(\theta) = \mathbb{E}_{t} \bigg[ & \min\left( r_t(\theta) A_t, \,\, \text{clip}\big(r_t(\theta), 1-\epsilon, 1+\epsilon\big) A_t \right) \nonumber \\ & - \beta \, \text{KL}\left[\pi_{\theta}(\cdot|s_t) \| \pi_{\theta_{\text{ref}}}(\cdot|s_t)\right] \bigg] \end{align*}

其中 $r_t{\theta}$ 是重要性采样比率，表示为：

r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}

Selective Loss Masking

模型在训练的过程中，如果处理不当，很可能会陷入到二元境地，比如一直都输出 CoT token 或者一直不输出 CoT token。比如在【数学类】数据集中训练之后，很可能一直输出 CoT token。这样模型就不能很好的进行探索，坍缩到一个方向去了。

这里的做法也很简单，在 RL 训练的过程中，把 policy gradient 中的 loss 不算所有的 token，而是 mask 掉后的第一个 token。这样做有什么好处，我们保持了 SFT/RL 阶段学到的要不要触发 CoT，只是我们 mask 掉了 Loss，通过 Loss 优化控制下一步是否触发 CoT，而不是改变上一步学到的结果。

3.2 实验结论

最终的效果也很好，只使用 65% 左右的 CoT 触发率就达到了接近 100% 触发 CoT 的效果。而对于火山的实际调用 CASE 来看，只有 3.18% 的 CoT rate，也就是大部分人的 query 都很简单，没必要 CoT，这在实际工业界还是非常有用的。

3.3 其他

本篇文章出发点很好，唯一的遗憾是细节还是有一些缺失，尤其是比较关键的 Score 设置，比如公式（1）中的 $P(\theta)$ 中 score 的计算方式，以及公式（2）中的 $R_{base}(x, r)$ 是怎么得到的，以及细节是什么。不过作为一篇工业界文章，已经非常好启发性了。而且最重要的是：这篇文章落地了，在火山方舟中就有可以调用的模型。

这篇文章是一个师弟写得，太牛逼了，太佩服了（蹭蹭师弟的热度）

4. 清华 AdaThinking

和 Seed-AdaCoT 这个文章出发点一样，但是清华的这篇 AdaThinking 有一个很好理解的图，有前置的分析，RL 阶段也写得更细节一点（这就是工业论文和学界论文的区别吗？）再把这个图放过来

4.1 前置分析

这个图告诉我们：

简单问题不需要 CoT 甚至可能带来的更好的效果（左），只有难问题有无 CoT 才会有明显区别。
越难的问题越需要更长的思考（中）
只有在 Level 5 中有 Thinking 的模型才明显超过 Non-Thinking（右）

一共有两个part，part1 受限优化问题，part2 重要性采样，整体算法流程如下

4.2 （主）RL 训练

4.2.1 RL for Constrained Optimization Objective

整体的优化目标如下，尽量少的出现 Thinking（ $y_1 =$ 表示第一生成的词就是这样就表示没有思考），但是需要 $R_{\theta}(x, y)$ 要大于 $R_{\theta_{ref}}(x, y)$ ，后者就是约束。

\begin{align*} \max_{\theta} \mathbb{E}_{x \sim D, y \sim \pi_{\theta}(\cdot | x)} \, \mathbb{I}(y_1 = \text{}) \tag{3} \\ \text{s.t.} \mathbb{E}_{x \sim D, y \sim \pi_{\theta}(\cdot | x)} \, R(x, y) \geq \mathbb{E}_{x \sim D, y' \sim \pi_{\theta_{\text{ref}}}(\cdot | x)} \, R(x, y'). \end{align*}

根据拉格朗日乘数法，可以把约束条件放到优化公式中，最终变成：

\begin{align*} \max \mathbb{E}_{x \sim D, y \sim \pi_\theta(\cdot | x), y' \sim \pi_{\theta_{\mathrm{ref}}}(\cdot | x)} \mathbb{I}(y_1 = ) + \lambda (R(x, y) - R(x, y')) \tag{4} \end{align*}

把公式拆一拆，另 $\delta = \frac{1}{\lambda}$ ， $\mathbb{E}_{y' \sim \pi_{\theta_{\mathrm{ref}}}(\cdot | x)}$ 下放到期望内部，这样就得到两个期望

\begin{align*} \max \mathbb{E}_{x \sim D, y \sim \pi_\theta(\cdot | x)} \left[ \mathbb{I}(y_1 = ) \cdot \delta + R(x, y) \right] - \mathbb{E}_{y' \sim \pi_{\theta_{\mathrm{ref}}}(\cdot | x)} R(x, y') \end{align*}

我们用蒙特卡洛采样，可以得到 $\mathbb{E}_{y' \sim \pi_{\theta_{\mathrm{ref}}}(\cdot | x)} R(x, y')$ 近似等于 K 次采样的 Reward 均值，因此我们有

\bar{R}_{\mathrm{ref}}(x) = \frac{1}{K} \sum_{i=1}^{K} R(x, y^{'i}), \, y^{'i} \sim \pi_{\theta_{\mathrm{ref}}}(\cdot | x) \tag{5}

因此我们得到最终的优化目标，公式（6）

\begin{align*} \max \mathbb{E}_{x\sim\mathcal{D},y\sim\pi_{\theta}(\cdot|x)} \left[ \mathbb{I}(y_1 = ) \cdot \delta + R(x,y) \right] - \bar{R}_{\text{ref}}(x) \tag{6} \end{align*}

但是我们知道 $\mathbb{I} = y_1=$ 以及 $R(x, y)$ 是不可导的，所以我们用 policy gradient 的方式进行优化，这样也是用 PPO 算法进行优化，具体优化公式为（Without KL）：

\begin{align*} \mathcal{L}(\theta) = -\mathbb{E}_{x \sim D, y \sim \pi_{\theta_{\text{old}}}(\cdot|x)} \Bigg[ &\min\Bigg( \frac{\pi_{\theta}(y|x)}{\pi_{\theta_{\text{old}}}(y|x)} A(x,y), \\ &\text{clip}\left( \frac{\pi_{\theta}(y|x)}{\pi_{\theta_{\text{old}}}(y|x)}, 1 - \epsilon, 1 + \epsilon \right) A(x,y) \Bigg) \Bigg] \tag{7} \end{align*}

其中优势函数计算公式为：

A(x, y) = \mathbb{I}(y_1 = ) \cdot \delta + R(x, y) - \bar{R}_{ref}(x)

4.2.2 修改重要性采样

由于开始的模型是 thinking model，所以模型一开始 $y_1 =$ 概率为 0，模型不会直接输出终止符。因此我们直接修改 $\pi_{\theta_{old}}$ 。

\pi_{\text{IS}}(y_t = a|x, y_{; \\ 0.5, & \quad \text{if } t = 1, \, a = w_{\text{start}}; \\ \pi_{\theta_\text{old}}(y_t = a|x, y_{ 1. \end{aligned} \end{cases} \tag{8}

因此最终的 PPO算法公式改成了

\begin{align*} \begin{split} \mathcal{L}_{\text{AT}}(\theta) = -\mathbb{E}_{x \sim D, y \sim \pi_{\text{IS}}(\cdot|x)} \Bigg[ &\min\Bigg( \frac{\pi_{\theta}(y|x)}{\pi_{\text{IS}}(y|x)}, \\ &\text{clip}\left( \frac{\pi_{\theta}(y|x)}{\pi_{\text{IS}}(y|x)}, 1 - \epsilon, 1 + \epsilon \right) \Bigg) A(x,y) \Bigg] \end{split} \tag{9} \end{align*}

从 Loss 上的理解，我们希望同时满足下面两个条件的时候才更新 $\pi_{\theta}$ ， $\delta$ 越大，越鼓励模型不要思考。

\begin{align*} \bar{R}_{\text{nothink}}(x) + \delta &> \bar{R}_{\text{ref}}(x), \\ \bar{R}_{\text{nothink}}(x) + \delta &> \bar{R}_{\text{think}}(x). \end{align*}

4.3 实验结论

可以看出：accuracy 增加，回复长度减少，刚好符合我的目标。不过这种主实验确实没啥太多信息量，因此效果大概率都是很好的，我们来看一个消融对比实验，下图：不修改重要性采样的时候，只用采用原版的 GRPO 算法。

我们可以看出，

左。naive grpo 算法学到的其实是 thinking 模式，所以自然效果好一些。（因为第一个 token 出现的概率几乎为 0
中。同理， naive grpo 的学到的是 thinking 模式，所以长度更长。
右，同理，触发 thinking 模式的比例更高。

这说明了，我们修改重要性采样是很有必要的。

5. 总结

上面介绍三篇文章如何处理这种混合思考模式。

Qwen3 主要通过 SFT 训练让模型天然具备遵循【思考、非思考】模式，但是需要人为控制。
AdaCoT 和 AdaThinking 都是让模型自己决定，简单的问题不用思考，复杂的问题可以思考。
- 其中 AdaCoT 通过把优化目标转换成 Pareto optimization，然后利用 PPO 算法进行优化
- AdaThinking 也是通过 PPO 算法优化，把问题视为：尽量少触发 CoT 的情况下，新模型的回复大于【旧模型回答】且大于【Thinking 模式模型的回答】。

DeepSeek-R1 之后，真就全员 RL 啊，什么东西都用 RL 来搞一遍~ ok, RL is all we need~

其他

最后欢迎关注我，基本全网同名 chaofa用代码打点酱油 (推荐)

手写 Self-Attention 的四重境界，从 self-attention 到 multi-head self-attention

Sun, 18 Aug 2024 12:00:00 GMT

背景

在 AI 相关的面试中，经常会有面试官让写 self-attention，但是因为 transformer 这篇文章其实包含很多的细节，因此可能面试官对于 self-attention 实现到什么程度是有不同的预期。因此这里想通过写不同版本的 self-attention 实现来达到不同面试官的预期。以此告诉面试官，了解细节，但是处于时间考虑，可能只写了简化版本，如果有时间可以把完整的写出来。

如果对于文字不感冒，可以查看YouTube 和 B 站视频 > Youtube 链接-- bilibili 链接

Self-Attention

MultiHead Attention 的时候下一章介绍；先熟悉当前这个公式。

Self Attention 的公式

SelfAttention(X) = softmax(\frac{Q\cdot K}{\sqrt{d}}) \cdot V

$Q = K = V = W * X$ ，其中Q K V 对应不同的矩阵 W

补充知识点

matmul 和 @ 符号是一样的作用
为什么要除以 $\sqrt{d}$ ？ a. 防止梯度消失 b. 为了让 QK 的内积分布保持和输入一样
爱因斯坦方程表达式用法：torch.einsum("bqd,bkd-> bqk", X, X).shape
X.repeat(1, 1, 3) 表示在不同的维度进行 repeat操作，也可以用 tensor.expand 操作

第一重: 简化版本

直接对着公式实现， $SelfAttention(X) = softmax(\frac{Q\cdot K}{\sqrt{d}}) \cdot V$

# 导入相关需要的包
import math
import torch
import torch.nn as nn

import warnings
warnings.filterwarnings(action="ignore")


class SelfAttV1(nn.Module):
    def __init__(self, hidden_dim):
        super(SelfAttV1, self).__init__()
        self.hidden_dim = hidden_dim
        # 一般 Linear 都是默认有 bias
        # 一般来说， input dim 的 hidden dim
        self.query_proj = nn.Linear(hidden_dim, hidden_dim)
        self.key_proj = nn.Linear(hidden_dim, hidden_dim)
        self.value_proj = nn.Linear(hidden_dim, hidden_dim)

    def forward(self, X):
        # X shape is: (batch, seq_len, hidden_dim)， 一般是和 hidden_dim 相同
        # 但是 X 的 final dim 可以和 hidden_dim 不同
        Q = self.query_proj(X)
        K = self.key_proj(X)
        V = self.value_proj(X)

        # shape is: (batch, seq_len, seq_len)
        # torch.matmul 可以改成 Q @ K.transpose(-1, -2)
        # 其中 K 需要改成 shape 为： (batch, hidden_dim, seq_len)
        attention_value = torch.matmul(Q, K.transpose(-1, -2))
        attention_wight = torch.softmax(
            attention_value / math.sqrt(self.hidden_dim), dim=-1
        )
        # print(attention_wight)
        # shape is: (batch, seq_len, hidden_dim)
        output = torch.matmul(attention_wight, V)
        return output


X = torch.rand(3, 2, 4)
net = SelfAttV1(4)
net(X)

第二重: 效率优化

上面那哪些操作可以合并矩阵优化呢？- QKV 矩阵计算的时候，可以合并成一个大矩阵计算。

但是当前 transformers 实现中，其实是三个不同的 Linear 层

class SelfAttV2(nn.Module):
    def __init__(self, dim) -> None:
        super().__init__()
        self.dim = dim
        # 这样可以进行加速, 那么为什么现在 Llama, qwen, gpt 等
        self.proj = nn.Linear(dim, dim * 3)

        self.output_proj = nn.Linear(dim, dim)

    def forward(self, X):
        # X shape is: (batch, seq, dim)

        QKV = self.proj(X)  # (batch, seq, dim * 3)
        # reshape 从希望的 q, k, 的形式
        Q, K, V = torch.split(QKV, self.dim, dim=-1)

        # print(x)
        att_weight = torch.softmax(
            Q @ K.transpose(-1, -2) / math.sqrt(self.dim), dim=-1
        )
        output = att_weight @ V
        return self.output_proj(output)


X = torch.rand(3, 2, 4)
net = SelfAttV2(4)
net(X).shape

第三重: 加入细节

看上去 self attention 实现很简单，但里面还有一些细节，还有哪些细节呢？
- attention 计算的时候有 dropout，而且是比较奇怪的位置
- attention 计算的时候一般会加入 attention_mask，因为样本会进行一些 padding 操作；
- MultiHeadAttention 过程中，除了 QKV 三个矩阵之外，还有一个 output 对应的投影矩阵，因此虽然面试让你写 SingleHeadAttention，但是依然要问清楚，是否要第四个矩阵？

class SelfAttV3(nn.Module):
    def __init__(self, dim) -> None:
        super().__init__()
        self.dim = dim
        # 这样可以进行加速
        self.proj = nn.Linear(dim, dim * 3)
        # 一般是 0.1 的 dropout，一般写作 config.attention_probs_dropout_prob
        # hidden_dropout_prob 一般也是 0.1
        self.att_drop = nn.Dropout(0.1)

        # 不写这个应该也没人怪，应该好像是 MultiHeadAttention 中的产物，这个留给 MultiHeadAttention 也没有问题；
        self.output_proj = nn.Linear(dim, dim)

    def forward(self, X, attention_mask=None):
        # attention_mask shape is: (batch, seq)
        # X shape is: (batch, seq, dim)

        QKV = self.proj(X)  # (batch, seq, dim * 3)
        # reshape 从希望的 q, k, 的形式
        Q, K, V = torch.split(QKV, self.dim, dim=-1)

        att_weight = Q @ K.transpose(-1, -2) / math.sqrt(self.dim)
        if attention_mask is not None:
            # 给 weight 填充一个极小的值
            att_weight = att_weight.masked_fill(attention_mask == 0, float("-1e20"))

        att_weight = torch.softmax(att_weight, dim=-1)

        # 这里在 BERT中的官方代码也说很奇怪，但是原文中这么用了，所以继承了下来
        # （用于 output 后面会更符合直觉？）
        att_weight = self.att_drop(att_weight)

        output = att_weight @ V
        ret = self.output_proj(output)
        return ret


X = torch.rand(3, 4, 2)
b = torch.tensor(
    [
        [1, 1, 1, 0],
        [1, 1, 0, 0],
        [1, 0, 0, 0],
    ]
)
print(b.shape)
mask = b.unsqueeze(dim=1).repeat(1, 4, 1)

net = SelfAttV3(2)
net(X, mask).shape

面试写法（完整版）--注意注释

# 导入相关需要的包
import math
import torch
import torch.nn as nn

import warnings

warnings.filterwarnings(action="ignore")

class SelfAttV4(nn.Module):
    def __init__(self, dim) -> None:
        super().__init__()
        self.dim = dim

        # 这样很清晰
        self.query_proj = nn.Linear(dim, dim)
        self.key_proj = nn.Linear(dim, dim)
        self.value_proj = nn.Linear(dim, dim)
        # 一般是 0.1 的 dropout，一般写作 config.attention_probs_dropout_prob
        # hidden_dropout_prob 一般也是 0.1
        self.att_drop = nn.Dropout(0.1)

        # 可以不写；具体和面试官沟通。
        # 这是 MultiHeadAttention 中的产物，这个留给 MultiHeadAttention 也没有问题；
        self.output_proj = nn.Linear(dim, dim)

    def forward(self, X, attention_mask=None):
        # attention_mask shape is: (batch, seq)
        # X shape is: (batch, seq, dim)

        Q = self.query_proj(X)
        K = self.key_proj(X)
        V = self.value_proj(X)

        att_weight = Q @ K.transpose(-1, -2) / math.sqrt(self.dim)
        if attention_mask is not None:
            # 给 weight 填充一个极小的值
            att_weight = att_weight.masked_fill(attention_mask == 0, float("-1e20"))

        att_weight = torch.softmax(att_weight, dim=-1)
        print(att_weight)

        # 这里在 BERT中的官方代码也说很奇怪，但是原文中这么用了，所以继承了下来
        # （用于 output 后面会更符合直觉？）
        att_weight = self.att_drop(att_weight)

        output = att_weight @ V
        ret = self.output_proj(output)
        return ret


X = torch.rand(3, 4, 2)
b = torch.tensor(
    [
        [1, 1, 1, 0],
        [1, 1, 0, 0],
        [1, 0, 0, 0],
    ]
)
print(b.shape)
mask = b.unsqueeze(dim=1).repeat(1, 4, 1)

net = SelfAttV4(2)
net(X, mask).shape

MultiHead-Self-Attention

怎么手写一个 Single Head Self-Attention，但是一般在实际上的训练过程中都会使用 Multi Head, 而且其实也仅仅是每个 Head 做完 Self-Attention 得到结果之后，进行拼接，然后过一个 output 投影矩阵。

第四重：multi-head self-attention

import math
import torch
import torch.nn as nn

class MultiHeadAttention(nn.Module):
    def __init__(self, hidden_dim, nums_head) -> None:
        super().__init__()
        self.nums_head = nums_head

        # 一般来说，
        self.head_dim = hidden_dim // nums_head
        self.hidden_dim = hidden_dim

        # 一般默认有 bias，需要时刻主意，hidden_dim = head_dim * nums_head，所以最终是可以算成是 n 个矩阵
        self.q_proj = nn.Linear(hidden_dim, hidden_dim)
        self.k_proj = nn.Linear(hidden_dim, hidden_dim)
        self.v_proj = nn.Linear(hidden_dim, hidden_dim)

        # gpt2 和 bert 类都有，但是 llama 其实没有
        self.att_dropout = nn.Dropout(0.1)
        # 输出时候的 proj
        self.o_proj = nn.Linear(hidden_dim, hidden_dim)

    def forward(self, X, attention_mask=None):
        # 需要在 mask 之前 masked_fill
        # X shape is (batch, seq, hidden_dim)
        # attention_mask shape is (batch, seq)

        batch_size, seq_len, _ = X.size()

        Q = self.q_proj(X)
        K = self.k_proj(X)
        V = self.v_proj(X)

        # shape 变成 （batch_size, num_head, seq_len, head_dim）
        q_state = Q.view(batch_size, seq_len, self.nums_head, self.head_dim).permute(
            0, 2, 1, 3
        )
        k_state = K.view(batch_size, seq_len, self.nums_head, self.head_dim).transpose(
            1, 2
        )
        v_state = V.view(batch_size, seq_len, self.nums_head, self.head_dim).transpose(
            1, 2
        )
        # 主意这里需要用 head_dim，而不是 hidden_dim
        attention_weight = (
            q_state @ k_state.transpose(-1, -2) / math.sqrt(self.head_dim)
        )
        print(type(attention_mask))
        if attention_mask is not None:
            attention_weight = attention_weight.masked_fill(
                attention_mask == 0, float("-1e20")
            )

        # 第四个维度 softmax
        attention_weight = torch.softmax(attention_weight, dim=3)
        print(attention_weight)

        attention_weight = self.att_dropout(attention_weight)
        output_mid = attention_weight @ v_state

        # 重新变成 (batch, seq_len, num_head, head_dim)
        # 这里的 contiguous() 是相当于返回一个连续内存的 tensor，一般用了 permute/tranpose 都要这么操作
        # 如果后面用 Reshape 就可以不用这个 contiguous()，因为 view 只能在连续内存中操作
        output_mid = output_mid.transpose(1, 2).contiguous()

        # 变成 (batch, seq, hidden_dim),
        output = output_mid.view(batch_size, seq_len, -1)
        output = self.o_proj(output)
        return output


attention_mask = (
    torch.tensor(
        [
            [0, 1],
            [0, 0],
            [1, 0],
        ]
    )
    .unsqueeze(1)
    .unsqueeze(2)
    .expand(3, 8, 2, 2)
)

x = torch.rand(3, 2, 128)
net = MultiHeadAttention(128, 8)
net(x, attention_mask).shape

这里再次解释一下，为什么现在现在的代码实现都是 q k v 的投影矩阵都是分开写的，这是因为现在的模型很大，本身可能会做张量并行，流水线并行等方式，所以分开写问题也不大（分开写很清晰），可能是加速效果并不明显。

交个朋友🤣

最后欢迎关注我，基本全网同名 chaofa用代码打点酱油

手写 transformer decoder（CausalLM）

Sun, 18 Aug 2024 13:00:00 GMT

阅读须知

面试过程中让写 transformers Decoder 一定要沟通清楚是写一个 CausalLM decoder 还是原版的，原版的比较复杂，一般也不会让写。这里的 Decoder 一般指的是 CausalLM，具体变化是少了 encoder 部分的输入，所以也就没有了 encoder and decoder cross attention。

因为重点希望写 CausalLM，所以没有 Cross attention 和也省略了 token embedding 这一步。

如果对于文字不感冒，可以查看YouTube 和 B 站视频 > Youtube 链接-- bilibili 链接

知识点

transformers decoder 的流程是：input -> self-attention -> cross-attention -> FFN
causalLM decoder 的流程是 input -> self-attention -> FFN
- 其他 [self-attention, FFN] 是一个 block，一般会有很多的 block
FFN 矩阵有两次变化，一次升维度，一次降维度。其中 LLaMA 对于 GPT 的改进还有把 GeLU 变成了 SwishGLU，多了一个矩阵。所以一般升维会从 4h -> 4h * 2 / 3
原版的 transformers 用 post-norm, 后面 gpt2, llama 系列用的是 pre-norm。其中 llama 系列一般用 RMSNorm 代替 GPT and transformers decoder 中的 LayerNorm。

具体实现：

# 导入相关需要的包
import math
import torch
import torch.nn as nn

import warnings
warnings.filterwarnings(action="ignore")

# 写一个 Block
class SimpleDecoder(nn.Module):
    def __init__(self, hidden_dim, nums_head, dropout=0.1):
        super().__init__()

        self.nums_head = nums_head
        self.head_dim = hidden_dim // nums_head

        self.dropout = dropout

        # 这里按照 transformers 中的 decoder 来写，用 post_norm 的方式实现，主意有 残差链接
        # eps 是为了防止溢出；其中 llama 系列的模型一般用的是 RMSnorm 以及 pre-norm（为了稳定性）
        # RMSnorm 没有一个 recenter 的操作，而 layernorm 是让模型重新变成 均值为 0，方差为 1
        # RMS 使用 w平方根均值进行归一化 $\sqrt{\frac{1}{n} \sum_{1}^{n}{a_i^2} }$
        self.layernorm_att = nn.LayerNorm(hidden_dim, eps=0.00001)

        self.q_proj = nn.Linear(hidden_dim, hidden_dim)
        self.k_proj = nn.Linear(hidden_dim, hidden_dim)
        self.v_proj = nn.Linear(hidden_dim, hidden_dim)
        self.o_proj = nn.Linear(hidden_dim, hidden_dim)
        self.drop_att = nn.Dropout(self.dropout)

        # for ffn 准备
        self.up_proj = nn.Linear(hidden_dim, hidden_dim * 4)
        self.down_proj = nn.Linear(hidden_dim * 4, hidden_dim)
        self.layernorm_ffn = nn.LayerNorm(hidden_dim, eps=0.00001)
        self.act_fn = nn.ReLU()
        
        self.drop_ffn = nn.Dropout(self.dropout)

    def attention_output(self, query, key, value, attention_mask=None):
        # 计算两者相关性
        key = key.transpose(2, 3)  # (batch, num_head, head_dim, seq)
        att_weight = torch.matmul(query, key) / math.sqrt(self.head_dim)

        # attention mask 进行依次调整；变成 causal_attention
        if attention_mask is not None:
            # 变成下三角矩阵
            attention_mask = attention_mask.tril()
            att_weight = att_weight.masked_fill(attention_mask == 0, float("-1e20"))
        else:
            # 人工构造一个下三角的 attention mask
            attention_mask = torch.ones_like(att_weight).tril()
            att_weight = att_weight.masked_fill(attention_mask == 0, float("-1e20"))

        att_weight = torch.softmax(att_weight, dim=-1)
        print(att_weight)

        att_weight = self.drop_att(att_weight)

        mid_output = torch.matmul(att_weight, value)
        # mid_output shape is: (batch, nums_head, seq, head_dim)

        mid_output = mid_output.transpose(1, 2).contiguous()
        batch, seq, _, _ = mid_output.size()
        mid_output = mid_output.view(batch, seq, -1)
        output = self.o_proj(mid_output)
        return output

    def attention_block(self, X, attention_mask=None):
        batch, seq, _ = X.size()
        query = self.q_proj(X).view(batch, seq, self.nums_head, -1).transpose(1, 2)
        key = self.k_proj(X).view(batch, seq, self.nums_head, -1).transpose(1, 2)
        value = self.v_proj(X).view(batch, seq, self.nums_head, -1).transpose(1, 2)

        output = self.attention_output(
            query,
            key,
            value,
            attention_mask=attention_mask,
        )
        return self.layernorm_att(X + output)

    def ffn_block(self, X):
        up = self.act_fn(
            self.up_proj(X),
        )
        down = self.down_proj(up)

        # 执行 dropout
        down = self.drop_ffn(down)

        # 进行 norm 操作
        return self.layernorm_ffn(X + down)

    def forward(self, X, attention_mask=None):
        # X 一般假设是已经经过 embedding 的输入， (batch, seq, hidden_dim)
        # attention_mask 一般指的是 tokenizer 后返回的 mask 结果，表示哪些样本需要忽略
        # shape 一般是： (batch, nums_head, seq)

        att_output = self.attention_block(X, attention_mask=attention_mask)
        ffn_output = self.ffn_block(att_output)
        return ffn_output


# 测试

x = torch.rand(3, 4, 64)
net = SimpleDecoder(64, 8)
mask = (
    torch.tensor([[1, 1, 1, 1], [1, 1, 0, 0], [1, 1, 1, 0]])
    .unsqueeze(1)
    .unsqueeze(2)
    .repeat(1, 8, 4, 1)
)

net(x, mask).shape

交个朋友🤣

最后欢迎关注我，基本全网同名 chaofa用代码打点酱油

手写大模型组件之Group Query Attention，从 MHA，MQA 到 GQA

Sun, 08 Dec 2024 22:00:00 GMT

GQA（Group Query Attention）的优点：效果损失小，推理的时候可以加速（来自于kvcache小，内存取数少）。
仔细阅读 MHA, MQA 和 GQA的区别，就会发现 MHA 和 MQA 都是 GQA 的特殊表达形式
- 三者可以用同一套代码，只需要修改【GQA】代码里面的 nums_key_value_head 参数就可
- nums_key_value_head 设置等于 1 就是 MQA
- nums_key_value_head 设置等于 nums_head 就是 MHA

如果不喜欢看文字的同学可以查看 B站或者 YouTube 视频。

B站：https://www.bilibili.com/video/BV1ZmqpYfEGY/

YouTube: https://www.youtube.com/watch?v=1jBW7qcyd7A&t=1s

multi-head self-attention

备注：也可以直接由 GQA 中修改参数得到。但是本代码更完整一些

import math
import torch
import torch.nn as nn

class MultiHeadAttention(nn.Module):
    def __init__(self, hidden_dim, nums_head) -> None:
        super().__init__()
        self.nums_head = nums_head

        # 一般来说，
        self.head_dim = hidden_dim // nums_head
        self.hidden_dim = hidden_dim

        # 一般默认有 bias，需要时刻主意，hidden_dim = head_dim * nums_head，所以最终是可以算成是 n 个矩阵
        self.q_proj = nn.Linear(hidden_dim, hidden_dim)
        self.k_proj = nn.Linear(hidden_dim, hidden_dim)
        self.v_proj = nn.Linear(hidden_dim, hidden_dim)

        # gpt2 和 bert 类都有，但是 llama 其实没有
        self.att_dropout = nn.Dropout(0.1)
        # 输出时候的 proj
        self.o_proj = nn.Linear(hidden_dim, hidden_dim)

    def forward(self, X, attention_mask=None):
        # 需要在 mask 之前 masked_fill
        # X shape is (batch, seq, hidden_dim)
        # attention_mask shape is (batch, seq)

        batch_size, seq_len, _ = X.size()

        Q = self.q_proj(X)
        K = self.k_proj(X)
        V = self.v_proj(X)

        # shape 变成 （batch_size, num_head, seq_len, head_dim）
        q_state = Q.view(batch_size, seq_len, self.nums_head, self.head_dim).permute(
            0, 2, 1, 3
        )
        k_state = K.view(batch_size, seq_len, self.nums_head, self.head_dim).transpose(
            1, 2
        )
        v_state = V.view(batch_size, seq_len, self.nums_head, self.head_dim).transpose(
            1, 2
        )
        # 主意这里需要用 head_dim，而不是 hidden_dim
        attention_weight = (
            q_state @ k_state.transpose(-1, -2) / math.sqrt(self.head_dim)
        )
        print(type(attention_mask))
        if attention_mask is not None:
            attention_weight = attention_weight.masked_fill(
                attention_mask == 0, float("-1e20")
            )

        # 第四个维度 softmax
        attention_weight = torch.softmax(attention_weight, dim=3)
        print(attention_weight)

        attention_weight = self.att_dropout(attention_weight)
        output_mid = attention_weight @ v_state

        # 重新变成 (batch, seq_len, num_head, head_dim)
        # 这里的 contiguous() 是相当于返回一个连续内存的 tensor，一般用了 permute/tranpose 都要这么操作
        # 如果后面用 Reshape 就可以不用这个 contiguous()，因为 view 只能在连续内存中操作
        output_mid = output_mid.transpose(1, 2).contiguous()

        # 变成 (batch, seq, hidden_dim),
        output = output_mid.view(batch_size, seq_len, -1)
        output = self.o_proj(output)
        return output


attention_mask = (
    torch.tensor(
        [
            [0, 1],
            [0, 0],
            [1, 0],
        ]
    )
    .unsqueeze(1)
    .unsqueeze(2)
    .expand(3, 8, 2, 2)
)

x = torch.rand(3, 2, 128)
net = MultiHeadAttention(128, 8)
net(x, attention_mask).shape

Group Query Attention

备注：以下代码省略了 attention_dropout attention_mask等情况的处理，真实实现过程中需要考虑。

import torch
import torch.nn as nn
import math

# 忽略了 attention_mask, attention_dropout; 
class GroupQueryAttention(nn.Module):
    def __init__(self, hidden_dim, nums_head, nums_key_value_head):
        super().__init__()
        assert hidden_dim % nums_head == 0 # 可以整除
        assert nums_head % nums_key_value_head == 0  # N 个 query head 为一组

        self.hidden_dim = hidden_dim
        self.nums_head = nums_head
        self.nums_key_value_head = nums_key_value_head
        self.head_dim = hidden_dim // nums_head

        # 初始化 qkv o
        self.q_proj = nn.Linear(hidden_dim, nums_head * self.head_dim)  # out feature_size (nums_head * head_dim)
        # k v out shape (nums_key_value_head * head_dim)
        self.k_proj = nn.Linear(hidden_dim, nums_key_value_head * self.head_dim)
        self.v_proj = nn.Linear(hidden_dim, nums_key_value_head * self.head_dim)

        self.o_proj = nn.Linear(hidden_dim, hidden_dim) # input_size nums_head * head_dim

    def forward(self, X, attention_mask=None):
        # X shape (batch, seq, hidden_dim)
        batch_size, seq, _ = X.size()

        # qkv projection
        q = self.q_proj(X)  # （batch, seq, hidden_dim)
        k = self.k_proj(X)
        v = self.v_proj(X) 

        # attention_weight 目标shape 是 (batch, nums_head, seq, seq)
        q = q.view(batch_size, seq, self.nums_head, self.head_dim)
        k = k.view(batch_size, seq, self.nums_key_value_head, self.head_dim)
        v = v.view(batch_size, seq, self.nums_key_value_head, self.head_dim)

        # 关注: nums_head 和 nums_key_value_head 的关系
        q = q.transpose(1, 2) # (b, nums_head, seq, head_dim)
        k = k.transpose(1, 2) # (b, nums_key_value_head, seq, head_dim)
        v = v.transpose(1, 2)  # (b, nums_key_value_head, seq, head_dim)

        # k v repeat； （广播操作）
        k = k.repeat_interleave(self.nums_head // self.nums_key_value_head, dim=1)
        v = v.repeat_interleave(self.nums_head // self.nums_key_value_head, dim=1)

        attention_score = (q @ k.transpose(2, 3)) / math.sqrt(self.head_dim)

        attention_weight = torch.softmax(attention_score, dim=-1)
        # （attention_mask 忽略） # 可以看前面的视频

        output = attention_weight @ v  # (b, nums_head, seq, head_dim)

        # output projection 变成 (b, seq, hidden_dim)
        output = output.transpose(1, 2).contiguous()
        final_output = self.o_proj(output.view(batch_size, seq, -1))

        return final_output

# 测试
x = torch.rand(3, 2, 128)
net = GroupQueryAttention(128, 8, 4)
net(x).shape

Multi Query Attention

由于 MQA 是 GQA 的一种特殊形式，因此只要在参数设置的时候将 nums_key_value_head = 1 就是 Multi Query Self-Attention。

交个朋友🤣

最后欢迎关注我，基本全网同名 chaofa用代码打点酱油

LoRA 原理和 PyTorch 代码实现

Sat, 09 Nov 2024 21:56:00 GMT

背景

无论是火热的大模型（LLM）还是文生图模型（Stable Diffusion）微调的时候，都需要大量的GPU显存，个人的显卡上很难实现，因此各种参数高效（Parameter-Efficient）的方法层出不穷，最受大家欢迎的就是 LoRA《LoRA: Low-Rank Adaptation of Large Language Models》。

LoRA 有很多的优点，节约显存，训练快，效果损失较小（相对于全参数微调），推理的时候不增加耗时，可以做一个插入式组件使用。缺点当然也有，那就是还是会有一些效果的损失（笑）。

减少显存占用的主要原因是训练参数变小了（比如只对 qkv 层做 LoRA）

不喜欢看文字的同学可以看 B站视频-chaofa用代码打点酱油,

或者视频号：chaofa用代码打点酱油

核心原理

核心原理非常的简单，任意一个矩阵 $W_0$ ，都可以对它进行低秩分解，把一个很大的矩阵拆分成两个小矩矩阵^[1]（ $A,B$ ），在训练的过程中不去改变 $W_0$ 参数，而是去改变 $A B$ 。具体可以表示为

W_{new} = W_0 + AB \tag{1}

最终在训练计算的时候是

h = W_0x + ABx = (W_0 + AB)x\tag{2}

但是一般来说，AB 会进行一定的缩放，使用 $\frac{\alpha}{r}$ 作为缩放因子，所以最终会写成

h = (W_0 + \frac{\alpha}{r}AB)x\tag{3}

\text{s.t.} \quad W_0 \in \mathbb{R}^{n \times m}, \; A \in \mathbb{R}^{n \times r}, \; B \in \mathbb{R}^{r \times m}

其中 $r << n \text{ and } r << m$ ， $r$ 甚至可以设置成 1。

为什么说只优化 AB 两个矩阵就可以了呢？这里面的假设是什么？
$W$ 不是满秩的，里面有大量参数是冗余的，那么其实可以用更接近满秩的矩阵 AB 代替。

矩阵都可以表示为若干个线性无关向量，最大的线性无关向量个数就是秩

PyTorch 代码实现

import torch
import torch.nn as nn
import torch.nn.functional as F
import math


class LinearLoRALayer(nn.Module):
    def __init__(self, 
        in_features, 
        out_features,
        merge=False,
        rank=8,
        lora_alpha=16,
        dropout=0.1,
    ):
        super().__init__()

        self.in_features = in_features
        self.out_features = out_features
        self.merge = merge
        self.rank = rank

        # linear weight 的 Shape 是 (out_features, in_features), 正确的做法是 xW^T
        self.linear = nn.Linear(in_features, out_features)
        # 这里非常的重要，这里是实现的小细节
        
        if rank > 0:
            # 这里是为了标记 lora_a 和 lora_b 是可训练的参数
            self.lora_a = nn.Parameter(
                torch.zeros(out_features, rank)
            )
            # lora_a 需要初始化为 高斯分布
            # @春风归无期 提醒我 @用代码打点酱油的chaofa : 在调用凯明初始化的时候注释里写的高斯分布，调用的却是均匀分布，而且参数a的值设置的是根号5，但a表示的是leaky relu的负斜率系数，一般是0.01这样的小值，不可能超过1
            nn.init.kaiming_normal_(self.lora_a, a=0.01)

            self.lora_b = nn.Parameter(
                torch.zeros(rank, in_features)
            )
            self.scale = lora_alpha / rank

            # linear 需要设置为不可以训练
            self.linear.weight.requires_grad = False
            self.linear.bias.requires_grad = False
        
        self.dropout = nn.Dropout(
            dropout
        ) if dropout > 0 else nn.Identity()

        # 如果采用 merge 进行推理，
        # 那么会把 lora_a 和 lora_b 两个小矩阵的参数直接放到 linear.weight 中
        if merge:
            self.merge_weight()

    
    def forward(self, X):
        # X shape is (batch, seq_len, in_feature)
        # lora_a 是 out_features * rank
        if self.rank > 0 and not self.merge:
            output = self.linear(X) + self.scale * ( X @ (self.lora_a @ self.lora_b).T )
        elif self.rank > 0 and self.merge:
            output = self.linear(X)
        else:
            output = self.linear(X)
        
        return self.dropout(output)

    def merge_weight(self, ):
        if self.merge and self.rank > 0:
            self.linear.weight.data += self.scale * (self.lora_a @ self.lora_b)
    
    def unmerge_weight(self, ):
        if self.rank > 0:
            self.linear.weight.data -= self.scale * (self.lora_a @ self.lora_b)


# 写一段测试代码
# Test the LoRALinear layer
batch_size = 32
seq_len = 128
in_features = 768
out_features = 512
rank = 8
lora_alpha = 16
dropout = 0.1

# Create a test input
x = torch.randn(batch_size, seq_len, in_features)

# Test regular mode (no merge)
lora_layer = LinearLoRALayer(
    in_features=in_features,
    out_features=out_features,
    rank=rank,
    lora_alpha=lora_alpha,
    dropout=dropout,
    merge=False
)

# Forward pass
output = lora_layer(x)
print(f"Output shape (no merge): {output.shape}")  # Should be [batch_size, seq_len, out_features]

# Test merged mode
lora_layer_merged = LinearLoRALayer(
    in_features=in_features,
    out_features=out_features,
    rank=rank,
    lora_alpha=lora_alpha,
    dropout=dropout,
    merge=True
)

# Forward pass with merged weights
output_merged = lora_layer_merged(x)
print(f"Output shape (merged): {output_merged.shape}")  # Should be [batch_size, seq_len, out_features]

# Test weight merging/unmerging
lora_layer.merge_weight()
output_after_merge = lora_layer(x)
lora_layer.unmerge_weight()
output_after_unmerge = lora_layer(x)

print("Max difference after merge/unmerge cycle:", 
      torch.max(torch.abs(output - output_after_unmerge)).item())

Q: 大模型的 LoRA 实现真的这么简单吗？
A: 原理是这么简单，但是实际实现过程中因为层很多，会有一些配置，比如 QKV 层做 LoRA 还是 FFN 层做 LoRA，这些都会增加代码的复杂性，但是核心原理就是上面的代码。

References

感兴趣可以阅读我的其他文章：

交个朋友🤣

最后欢迎关注我，基本全网同名 chaofa用代码打点酱油

这里和PCA,SVD 有一些差别。前者是为了据降维/压缩，后者仅仅是为了学习低秩的矩阵（参数可以更新改变） ↩︎

LLM activate function激活函数的进化之路，从 ReLU，GELU 到 SwiGLU(swishGLU)

Mon, 27 Jan 2025 18:58:00 GMT

1. 背景

自 chatGPT 22年底问世以来，大模型（Large Language Model, LLM）一般使用 Causal Language Model 的形式，属于 Transformers 中的 Decoder 部分，其中在 Decoder 的 Block 中有一个 FFN(FeadForward) 层，一般认为这部分参数用于存储知识。而标准的 FFN 一般有一个升维度和降维度的过程，一共有两个权重矩阵，用公式表示为

FFN(x) = ReLU(xW_1 + b1)W2 + b2 \tag{1}

其中 x shape 是 $(b, s, h)$ ，w1 shape 是 $(h, 4h)$ ，w2 shape 是 $(4h, h)$ , w1 是升维（up），w2 是降维(down)

激活函数主要是为了实现神经网络学习输入和输出之间的复杂非线性关系而使用的一个函数。在公式 (1) 中，ReLU 是一个激活函数（Transfromers原版），可以替换成其他的激活函数，比如 BERT 开始用 Gaussian Error Linear Unit，GELU 比较多，随后就成了激活函数的主流选择，但是随着大模型的爆火以及 PaLM 模型的发布，大家开始慢慢使用 swishGLU 作为激活函数，并且作为一个主要的优化点。

具体可以看下面一段代码即可清楚的理解 FFN 模型是什么实现的。

class FeedForward(nn.Module):
    # 实际上就是 MLP
    def __init__(self, config):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(config.n_embd, 4 * config.n_embd),
             # 激活函数
             nn.ReLU(),  
             #  可以替换成 nn.GELU(),  
             #  但是 如果是 SwishGLU 则实现方式有所不同，接下来就会介绍 swishGLU 是怎么实现的
            nn.Linear(4 * config.n_embd, config.n_embd),
            nn.Dropout(config.dropout)
        )
    
    def forward(self, x):
        return self.net(x)

2. 升级之路

1. ReLU

ReLU 深度学习以来最常用的激活函数，其公式非常的简单。

ReLU(x) = max(0, x) \tag{2}

2. GELU

从 GPT、BERT 以来，GELU 似乎成了新时代取代 ReLU 的激活函数，具体形式如下：

GELU(x) = x P(X \le x) = x \Phi(x) \tag{3}

其中 $\Phi(x)$ 是标准正态分布的累计分布函数，定义为

\Phi(x) = \frac{1}{2}(1 + erf(\frac{x}{\sqrt{2}})) \tag{4}

这里的 erf 是误差函数

erf(x) = \frac{2}{\sqrt{\pi}} \int_0^x e^{-t^2} dt \tag{5}

但是这个函数由于计算成本较高，因此有两个初等函数作为近似计算（但目前【2025年1月27日】其实很多框架已经可以精确计算 erf 函数）。

近似计算分析详细可以参见苏神的文章，GELU的两个初等函数近似是怎么来的

3. SwiGLU（SwishGLU）

SwiGLU（或者swishGLU，以下可能混用）是 swish 激活函数和 GLU 门控单元的结合体，因此需要分别介绍两者的不同。

其中需要注意的是：在 T5 开始，很多模型（比如 PaLM ）在FFN层都不用 bias 了，也就是说 FFN的公式变成了

FFN(x) = \text{ActiveFunction}(xW_1)W2 \tag{6}

注意公式 6 和公式 1 的区别，一共没有 bias 一个有 bias，但具体得看不同模型的实现，并不能一概而论。

3.1 swish 激活函数

swish 是一个非线性函数（激活函数都是如此，笑🤣），具体公式为：

\text{Swish} = x \sigma(\beta x)

其中 $\beta$ 是一个超参数，当 $\beta = 1$ 时，Swish 就变成了 SiLU (Sigmoid Linear Unit)，大多数框架的默认实现（如 PyTorch、TensorFlow 的 nn.SiLU()）使用的是 $\beta = 1$ 的固定版本。

因此如果采用 swish 激活函数，FFN 的公式变成了

FFN(W_1, W_2, x) = \text{Swish}(xW_1)W2

共有两个可学习的矩阵，其中 $w_1,(h, 4h)$ 是升维矩阵， $w_2,(4h, h)$ 是降低维度的矩阵。

3.2 GLU 门控单元

GLU，Gated Linear Units，是一种门控结构（有参数，因此相对于普通的激活函数多了一个 gate 矩阵），通过 sigmoid 控制不同维度的激活。公式如下^[1]：

GLU(W, x, V, b, c) = (Wx + b) \otimes \text{sigmoid}(Vx + c) \tag{7}

这里是不是熟悉 LSTM, GRU 的同学一下就理解，其中需要注意的是，b, c 对应的 bias 不是必须的。

对比公式 7 和公式 9，公式 9 中的 $w_{up}$ 对应公式 7 中的 $W$ ，而 $w_{gate}$ 对应公式 7 中的 $V$ 矩阵。

3.3 SwiGLU 的表达形式

而 SwiGLU 就是把门控函数替换成了 swish，并且去除掉了 bias 部分，以及把 FFN 层的一个 Linear 层替换成了 GLU 层，因此一共有三个可训练的参数矩阵, w1, w2, w3。

因此最终的公式表达为，

FFN(W_1, W_2, W_3, x) = W_2 \cdot (W_1x \otimes \text{Swish}(W_3x)) \tag{8}

而我们都知道 FFN 是一个升高维度，然后降低维度的过程，因此可以写成，W2 是一个降低维度的参数，W1 是升高维度的过程，而 W3 是一个 Gate 需要用到的参数矩阵。

FFN(w_{up}, w_{down}, w_{gate}) = w_{down} \cdot (w_{up}x \otimes \text{Swish}(w_{gate}x)) \tag{9}

通过这个公式整体就非常的清晰理解使用 swiGLU 的 FFN。

而我们都知道在 basic 版本的 FFN，见公式（1），只有 $w_{up}$ 和 $w_{down}$ 分别是 (h, 4h) 和（4h, h），因此整体参数是 $8h^2$ 。

而公式9 中，一共有三个矩阵，如果想要实现总参数 $8h^2$ ，那么每一个参数矩阵的大小应该是 $\frac{8h^2}{3}$ ，因此 $w_{up}, w_{gate}$ 的shape应该是 $(h, \frac{8h}{3})$ ， $w_{down}$ 的 shape 是 $(\frac{8h}{3}, h)$ 。

假设输入的 hidden_dim 大小是 hidden_dim，那么中间层（up 后的维度）大小是 mid_dim，具体计算逻辑如下：

mid_dim = int(8 * hidden_dim / 3)
# multiple_of：make SwiGLU hidden layer size multiple of large power of 2
mid_dim = multiple_of * ((mid_dim + multiple_of - 1) // multiple_of)

# multiple_of 一般设置为 256， LLaMA 和 GPT等模型

注意，在 LLM (大语言模型) 架构中，multiple_of 是一个用于优化计算效率的参数，通常设置为 256 或其他 2 的幂次方数（如 128、512 等），最终让 mid_dim 调整为 multiple_of 的整数倍。这样做有几个原因：

硬件优化：现代 GPU/TPU 在处理 2 的幂次方大小的张量时效率最高
内存对齐：确保内存对齐可以提高计算速度
并行计算效率：某些并行计算操作在处理规整的数字时效率更高

3. 带有 swishGLU 的 FFN 代码实现

class FFNExpert(nn.Module):
    def __init__(self, hidden_dim, dropout):   # LLM 进化之路， FFN 激活函数从 GELU -> SwiGLU
        super().__init__()  

        # 有一个 magic number 叫做 8/3
        hidden_dim = hidden_dim
        # 这里可以自己去优化成 multiple_of 的倍数
        mid_dim = hidden_dim * 8 // 3

        self.up = nn.Linear(hidden_dim, mid_dim, bias=False)
        self.down = nn.Linear(mid_dim, hidden_dim, bias=False)
        self.gate = nn.Linear(hidden_dim, mid_dim, bias=False)

        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        out = self.dropout(
            self.down(
                # up 之后的 Shape 是(b, s, mid_dim)
                # gate 和 up 之后的Shape都是 (b, s, mid_dim)
                # 两者是 element-wise 相乘
                F.silu(
                    self.gate(x)
                ) * self.up(x)
            )
        )
        return out

参考

GELU的两个初等函数近似是怎么来的
非常参考阅读文章：GLU 和 SwiGLU 可以写的时候没发现

最后欢迎关注我，基本全网同名 chaofa用代码打点酱油

https://zhuanlan.zhihu.com/p/693332639 ↩︎

LLM MOE的进化之路，从普通简化 MOE，到 sparse moe，再到 deepseek 使用的 share_expert sparse moe

Mon, 27 Jan 2025 19:30:00 GMT

1. 阅读前提

本次课一共讲解三个不同版本的 MOE，分别是基础版MOE，大模型训练用的 SparseMoE，还有 DeepSeek 用的比较多的 shared_expert 的 SparseMoE。

基础版MOE。理解 MOE 在干什么？
大模型训练用的 SparseMoE。了解大模型怎么做 MOE 训练？
Deepseek 用的 shared_expert SparseMoE。了解 MOE 模型如何进化？
视频讲解见：完全从零手写MOE大模型，复现 DeepSeek MOE 算法，彻底掌握 MOE 算法进化之路

2. 版本1：基础版本MOE

输入是一个 Token, 输出是一个 Token Embedding。暂时先不考虑 MOE 得到的 Embedding 怎么使用。

因为 MOE 网络对应着 Expert，这个 Expert 一般是一个 FeadFoward Network，FFN。而为了简化，后续我们都用一层的 Linear 代替，更高级版本的 Expert 留给大家当做课后作业。下面是一个专家的定义。

class BasicExpert(nn.Module):
    # 一个 Expert 可以是一个最简单的， linear 层即可
    # 也可以是 MLP 层
    # 也可以是 更复杂的 MLP 层（active function 设置为 swiglu）
    def __init__(self, feature_in, feature_out):
        super().__init__()
        self.linear = nn.Linear(feature_in, feature_out)
    
    def forward(self, x):
        return self.linear(x)

基础版本的 MOE 可以看这个图，非常的简单。


class BasicMOE(nn.Module):
    def __init__(self, feature_in, feature_out, expert_number):
        super().__init__()
        self.experts = nn.ModuleList(
            [
                BasicExpert(feature_in, feature_out) for _ in range(expert_number)
            ]
        )
        # gate 就是选一个 expert 
        self.gate = nn.Linear(feature_in, expert_number)
    
    def forward(self, x):
        # x 的 shape 是 （batch, feature_in)
        expert_weight = self.gate(x)  # shape 是 (batch, expert_number)
        expert_out_list = [
            expert(x).unsqueeze(1) for expert in self.experts
        ]  # 里面每一个元素的 shape 是： (batch, ) ??

        # concat 起来 (batch, expert_number, feature_out)
        expert_output = torch.cat(expert_out_list, dim=1)

        # print(expert_output.size())

        expert_weight = expert_weight.unsqueeze(1) # (batch, 1, expert_nuber)

        # expert_weight * expert_out_list
        output = expert_weight @ expert_output  # (batch, 1, feature_out)
        
        return output.squeeze()


def test_basic_moe():
    x = torch.rand(2, 4)

    basic_moe = BasicMOE(4, 3, 2)
    out = basic_moe(x)
    print(out)


test_basic_moe()

2. 版本2：SparseMoE （大模型训练使用）

这个一般我们用 switch transformers 这篇文章的图作为演示，详情看：

和 Basic 区别是，MOE 选择 topK 个专家，然后对这 topK 个专家的输出进行加权求和，并且把输入样本变成了大模型中真实的输入 Shape，(batch, seq_len, hidden_dim)


# 主要参考自 mistral MOE 的实现

class MOERouter(nn.Module):
    def __init__(self, hidden_dim, expert_number, top_k):
        super().__init__()
        self.gate = nn.Linear(hidden_dim, expert_number)
        self.expert_number = expert_number
        self.top_k = top_k
    
    def forward(self, hidden_states):
        # 计算路由logits
        router_logits = self.gate(hidden_states)  # shape is (b * s, expert_number)
        
        # 计算专家经过softmax之后的概率
        routing_probs = F.softmax(router_logits, dim=-1, dtype=torch.float)
        
        # 计算topk的专家的输出
        router_weights, selected_experts = torch.topk(
            routing_probs, self.top_k, dim=-1
        )  # shape都是 (b * s, top_k)
        
        # 专家权重归一化
        router_weights = router_weights / router_weights.sum(dim=-1, keepdim=True)
        router_weights = router_weights.to(hidden_states.dtype)
        
        # 生成专家掩码
        expert_mask = F.one_hot(
            selected_experts,
            num_classes=self.expert_number
        )  # shape是 (b * s, top_k, expert_number)
        expert_mask = expert_mask.permute(2, 1, 0)  # (expert_number, top_k, b * s)
        
        return router_logits, router_weights, selected_experts, expert_mask


class MOEConfig:
    def __init__(
            self, 
            hidden_dim, 
            expert_number, 
            top_k, 
            shared_experts_number=2,
        ):
        self.hidden_dim = hidden_dim
        self.expert_number = expert_number
        self.top_k = top_k
        self.shared_experts_number = shared_experts_number

class SparseMOE(nn.Module):
    # 稀疏 MOE 模型，这里每一个 token 都会过 topk 个专家，得到对应token 的 hidden_embeddings
    def __init__(self, config):
        super().__init__()

        self.hidden_dim = config.hidden_dim

        self.expert_number = config.expert_number
        self.top_k = config.top_k

        self.experts = nn.ModuleList(
            [
                BasicExpert(self.hidden_dim, self.hidden_dim) for _ in range(self.expert_number)
            ]
        )

        self.router = MOERouter(self.hidden_dim, self.expert_number, self.top_k)
    
    def forward(self, x):
        # x shape is (b, s, hidden_dim)
        batch_size, seq_len, hidden_dim = x.size()

        # 合并前两个维度，因为不是 Sample 维度了，而是 token 维度
        hidden_states = x.view(-1, hidden_dim) # shape is(b * s, hidden_dim)

        router_logits, router_weights, selected_experts_indices, expert_mask = self.router(hidden_states)
        # 其中 selected_experts_indices shape 是 (b * s, top_k)
        # 其中 expert_mask shape 是 (expert_number, top_k, b * s)
        
        final_hidden_states = torch.zeros(
            (batch_size * seq_len, hidden_dim),
            dtype=hidden_states.dtype,
            device=hidden_states.device
        )

        for expert_idx in range(self.expert_number):
            expert_layer = self.experts[expert_idx]
            # expert_mask[expert_idx] shape 是 (top_k, b * s)
            idx, top_x = torch.where(expert_mask[expert_idx]) 
            # idx 和 top_x 都是一维 tensor
            # idx 的值是 0 或 1, 表示这个 token 是作为当前专家的 top1 还是 top2
            # top_x 的值是 token 在 batch*seq_len 中的位置索引
            # 例如对于 batch_size=2, seq_len=4 的输入:
            # top_x 的值范围是 0-7, 表示在展平后的 8 个 token 中的位置
            # idx 的值是 0/1, 表示这个 token 把当前专家作为其 top1/top2 专家

            # hidden_states 的 shape 是 (b * s, hidden_dim)
            # 需要取到 top_x 对应的 hidden_states
            current_state = hidden_states.unsqueeze(
                0
            )[:, top_x, :].reshape(-1, hidden_dim) # （selected_token_number, hidden_dim）

            # router_weight 的 shape 是 (b * s, top_k)
            current_hidden_states = expert_layer(
                current_state
            ) * router_weights[top_x, idx].unsqueeze(-1)  # （selected_token_number, 1） 这里有广播

            # 把当前专家的输出加到 final_hidden_states 中
            # 方式1 的写法性能更好，并且方式1容易出现
            final_hidden_states.index_add_(0, top_x, current_hidden_states.to(hidden_states.dtype))
            # 方式2
            # final_hidden_states[top_x] += current_hidden_states.to(hidden_states.dtype)
            # 方式2 的写法性能更差，并且方式2容易出现错误，+= 操作在处理重复索引时需要多次读写内存，可能会导致竞争条件

        # 把 final_hidden_states 还原到原来的 shape
        final_hidden_states = final_hidden_states.reshape(batch_size, seq_len, hidden_dim)

        return final_hidden_states, router_logits # shape 是 (b * s, expert_number)


def test_token_level_moe():
    x = torch.rand(2, 4, 16)
    config = MOEConfig(16, 2, 2)
    token_level_moe = SparseMOE(config)
    out = token_level_moe(x)
    print(out[0].shape, out[1].shape)


test_token_level_moe()

3. 版本3：ShareExpert SparseMoE （deepseek 版本）

备注：这里是参考 deepseek moe 思想，写的一个共享 expert 的 MOE 网络，有一定的简化，但是可以方便理解训练过程。

和版本2 的 SparseMOE 区别是，这里多了一个 shared experts 的模型，这个模型是所有 token 共享的，也就是说，所有 token 都过这个 shared experts 模型，然后每个 token 会用计算的 Router 权重，来选择 topK 个专家，然后和共享的专家的输出一起加权求和。

具体结构图为：

class ShareExpertMOE(nn.Module):
    def __init__(self, config):
        super().__init__()

        self.moe_model = SparseMOE(config)
        self.shared_experts = nn.ModuleList(
            [
                BasicExpert(
                    config.hidden_dim, config.hidden_dim
                ) for _ in range(config.shared_experts_number)
            ]
        )

    def forward(self, x):
        # x shape 是 (b, s, hidden_dim)
        # 首先过 moe 模型
        sparse_moe_out, router_logits = self.moe_model(x)
        
        # 针对的还是 x 的每一个 
        # 然后过 shared experts
        shared_experts_out = [
            expert(x) for expert in self.shared_experts
        ] # 每一个 expert 的输出 shape 是 (b, s, hidden_dim)
        
        shared_experts_out = torch.stack(
            shared_experts_out, dim=0
        ).sum(dim=0)
        
        # 把 sparse_moe_out 和 shared_experts_out 加起来
        return sparse_moe_out + shared_experts_out, router_logits


def test_share_expert_moe():
    x = torch.rand(2, 4, 16)
    config = MOEConfig(16, 2, 2)
    share_expert_moe = ShareExpertMOE(config)
    out = share_expert_moe(x)
    print(out[0].shape, out[1].shape)


test_share_expert_moe()

4. 模型训练测试

用于测试上面的代码是否可以跑通？


def switch_load_balancing_loss(router_logits: torch.Tensor, num_experts: int) -> torch.Tensor:
    """
    计算 Switch Transformers 的负载均衡损失
    
    Args:
        router_logits: shape [batch_size * sequence_length, num_experts]
        num_experts: 专家数量
    
    Returns:
        total_loss: 总损失 = auxiliary_loss + z_loss
    """
    # 计算路由概率
    router_probs = torch.softmax(router_logits, dim=-1)  # [b*s, num_experts]
    
    # 获取每个token的最优专家
    _, selected_experts = torch.topk(router_probs, k=2, dim=-1) 
    
    # 创建one-hot矩阵表示选中的专家
    mask = torch.nn.functional.one_hot(selected_experts, num_experts).float() 
    
    # 计算每个专家的期望负载 (理想情况下应该是 1/num_experts)
    expected_load = torch.ones_like(router_probs) / num_experts
    
    # 计算实际负载 (每个专家处理的token数量除以总token数量)
    # 在batch维度上计算平均值
    actual_load = mask.mean(dim=0)
    
    # 计算auxiliary loss
    # 这会惩罚负载分布与期望负载的差异
    aux_loss = torch.sum(actual_load * router_probs.mean(dim=0)) * num_experts
    
    # 计算z_loss (可选)
    # 这会惩罚过大的路由logits
    z_loss = torch.mean(torch.square(router_logits))
    z_loss_weight = 0.001  # 可调整的超参数
    
    # 总损失
    total_loss = aux_loss + z_loss * z_loss_weight
    
    return total_loss

def test_moe_training():
    # Create a simple dataset
    batch_size = 32
    seq_len = 16
    hidden_dim = 32
    num_batches = 100
    
    # Initialize model and optimizer
    config = MOEConfig(hidden_dim=hidden_dim, 
                      expert_number=4,
                      top_k=2,
                      shared_experts_number=2)
    model = ShareExpertMOE(config)
    optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
    
    # Training loop
    model.train()
    for batch in range(num_batches):
        # Generate random input data
        x = torch.randn(batch_size, seq_len, hidden_dim)
        target = torch.randn(batch_size, seq_len, hidden_dim)
        
        # Forward pass
        output, router_logits = model(x)

        # Compute losses
        # MSE loss for prediction
        mse_loss = F.mse_loss(output, target)
        
        aux_loss = switch_load_balancing_loss(router_logits, config.expert_number)
        # Combined loss
        total_loss = mse_loss + 0.01 * aux_loss
        
        # Backward pass and optimize
        optimizer.zero_grad()
        total_loss.backward()
        optimizer.step()
        
        if batch % 10 == 0:
            print(f"Batch {batch}, Loss: {total_loss.item():.4f} "
                  f"(MSE: {mse_loss.item():.4f}, Aux: {aux_loss.item():.4f})")

# Run the training test
test_moe_training()

5. 课后作业

把 expert 改成 swishGLU 版本的 FFN 专家
- 可以参考文章：LLM activate function 激活函数的进化之路，从 ReLU，GELU 到 swishGLU
- 以及手写 transformer decoder（CausalLM）
把 MOE 应用到上一次的 build_nanoGPT 中，也就是替换掉原来的 FFN层，注意这里负载均衡 loss 要包含每一层的 MOE 的 router_logits
- 参考 GitHub 仓库，【LLMs-Zero-to-Hero】
自己问一下 GPT topK 是怎么实现的反向传播，了解反向传播的梯度怎么流转的？

交个朋友🤣

最后欢迎关注我，基本全网同名 chaofa用代码打点酱油

2020年过去了，我不怀念它

Thu, 31 Dec 2020 20:20:20 GMT

这一切都不是我们的选择

我们登上并非我们所选择的舞台，演出并非我们所选择的剧本。

2020年，也许是近些年最特殊的一年了。席卷全球的疫情、东非蝗灾、疯狂的美股熔断、原油事件... 除了这些国际上的大事件，对于个人来说，也可以称得上是关键的一年，毕业前的最后一年，即将完成身份的转换。

这些都不是我们所选择的2020，而是这些事件构成了2020。这一切都不是我们的选择，所以我一点也不怀念它。

我的2020

尽管想了很久怎么写一篇2020年的总结，但是每次写了一些东西都会被我删去。因为实在是没有办法将自己的想法完整的表述出来，所以我打算写一点算不上总结的东西。

TODO，等我有时间我要把以前写的总结也贴出来。

读书

今年读书相对于去年来说是少了一些。和大多数程序员一样，我看的书大部分也是技术书籍，由于自身是个彩笔，对于技术书籍没啥好评价的，总能或多或少的学到一点东西（因为看不下去就弃了）。今年基本把去年618买的书全部看完了，尽管我个人对于小说更感兴趣，但是今年让我更加印象深刻的是两本非小说书籍，一本是《人类简史》，另一本是《激荡的三十年》。这两本书有一个共同的特点，语言都非常简单易懂。尤其是对于第一本，提出了很多有意思的观点，“国家，制度，财富等都是建立在人们相信的故事上”。我清楚的记着刚看完这本书的时候想写一个读后感来着，后面忙于找实习就搁置了。对于第二本书，则讲的是中国近现代各个大佬的发家致富的小故事。尽管每一个都很简略，但是还是能看出时代的背影，毕竟“一个人的命运，当然要靠自我奋斗，但也要考虑到历史的进程”。

我对竹哥说过，能在书上找到认同的感觉真好，找到某些情感共鸣实在是读书的一大乐事。而蛇神则准确的表述为：可以从书里找到自己内心认可只是不能精确表达的道理^[1]。以后我应该多看一些非技术书籍，此外对于方法论的书，也许我不该这么排斥它，万一它真的有用呢？

娱乐

娱乐真是一种天赋技能。我发现我近两年对于快乐的感知能力急速的下降，而且快乐维持的时间极其短暂，往往在热闹之后回去的路上突然伤感起来，已然快变成祥林嫂了。无论做什么事情，很容易就感到乏味，缺乏必要的激情。日常觉得无事可做，日常觉得琐事不想做，日常觉得事情没有意义。

感受事情的本质，也许是让一个人心情愉悦的好办法。在某截图中看到蒋方舟提到要认真咀嚼大米的味道，这样会让生活过得更开心。这应该算作是认真的对待食物本身。我时常会感慨，“为啥LGQ总是觉得这东西这么好吃？为啥LHS能觉得这个游戏这么好玩？”。沉浸到一个事情中，无论是吃饭、游戏，都能得到很大的快乐。这点我似乎要好好学习一下。

说来今年最大的变化是，在月底的时候，我的每天入睡前听得不再是音乐了，我开始习惯于听别人的播客。听别人分享各种观点、有趣的事情。对于程序员来说，播客真的是一个很好的消遣途径，一整天都是对着电脑，玩手机刷视频并算不得是真正的休息，而闭上眼睛什么都不想又不是很现实，因为播客这种信息密度不是非常高的对话方式就非常适合作为一种休闲娱乐方式，只要你把它当成另一种形式的浏览帖子或视频。

希望能有人推荐一个好的播客频道，题材不限。（但是并不会有人看到这个没有任何信息的年终总结）

科研

今年科研算是比较顺利的一年，在师兄的全力辅助下发表了一篇EMNLP，这也许是今年最开心的一件事了。我读研的时候目标就是希望能发表一篇NLP领域里面的顶会，这算是达到了之前的目标，是一种少有的完成目标的成就感。在这里，我只想感恩，客观上我硕士期间运气真的很好。有的时候心理上觉得不愉快也只是因为人总是会放大悲伤的情绪。

对于论文这件事，给我带来的最大的收益是心里成就感。也许本质上我是想做一些具有成就感的东西，而目前来说，我所能接触到的、相对比较简单的，也就只有“科研”，至少我是认可它的。在我看来，能在论文中留下名字，是一件非常值得开心的事情。因为万一，有一个科研工作者，因为你这边灌水的文章收到一丝的启发，而后又有后序的工作在此上面进行改进，万一要是搞出个大新闻，那也算是为社会创造了一丝的价值。毕竟“蝴蝶效应”是不可预测的。

工作

对于工作来说，今年去了实习，也最终在秋招找到了一份工作。尽管在外人看来我拿的offer还是不错的，但是我个人对此确实远远称不上满意（我想的是要我是Xxx计划就好了，想屁吃）。我即将也要入职了，希望工作了能给我带来一些新的东西，无论是知识层面还是技能层面，这也是我对于工作所抱有的期待。尽管有在公司实习过，但是工作是和实习全然不同的心态，在工作的时候，我所需要思考的就是如何干活自己的本职工作，而对于实习则总是会有一些琐事所干扰，也许并不能全身心投入工作中。在其他方面，我觉得工作可能没有什么好说的，因为这工作这事情总会慢慢变好吧？

改变

最近我沉溺于看各种大佬写的年终总结，寄希望于从别人的成长经历中窥得一丝玄机，让自己的人生可以得到一些指引。经过我不负责任的总结，我觉得我需要做的改变的有三个点：

规划
行动力
专注度

我可以说是一个很没有规划的人，无论面对什么事情，我很容易囿于自己的想象之中。由于想象是一个很不具体的东西，所以总是容易夸大或者弱化其中的需要付出努力。前些时间和高博聊天的时候，他提出了一些我以前没有想过的东西。比如，大家都想赚钱，那么你的目标是赚多少钱？那么肯定会有人说越多越好，但是这本质上是偷懒的回答，因为如果我们没有一个很明确的目标，那么就比较难长时间的为此付出努力。因此，我们可以定一个非常具体化的目标，比如今年希望月薪能达到20K。而对于其他事情来说，也存在同样的想象和实际中的GAP，我们应该定义一些过程目标，从而使得目标清晰一点。当然这只是规划的一种，我们可以称之为目标规划。除了目标规划之外，过程规划同样非常重要，能够合理地安排自己在每个过程中需要做的事情，将任务、目标进行肢解将能够有效地提升工作效率。

行动力是LGQ一个另外一个让我很佩服的点。似乎每一个人都喜欢为自己不想做某件事找借口。“今天我头晕，不是很想读论文。明天再看也是一样的。”而任何时候我们都能找到一个合适的借口推脱，哪怕实际上并不是一个很好的借口，我们也会很容易就接受这个借口，因为不管怎么说，大部分人都是个懒惰的人呢。“种一棵树最好的时光是十年前，其次是现在!” 因此接下来，对于一些无法避免要处理的事情，我将更快速的行动起来。（嗯，实际上我已经在拖了，比如这篇废话总结）

我时常对自己心猿意马而感到苦恼，因此也曾尝试过一些弱智办法，比如前面也有文章提到过的长时间关闭朋友圈入口（近期因为临近毕业有了新的想法而再次活跃起来），但是这些方式都改变不了自己不够专注的本质。专注度决定了我们做一件事情的效率，前面的文章里面就提到过很多次对于自己的一些不满来自于“不专注”，而自己也因此感到极大的痛苦。（实际上划水是真的开心，事后才是痛苦的。）

为了应对这三个改变，我开始尝试了使用清单和番茄钟，对我来说算是初有成效，无论是对于行动力、还是专注力相对于之前弱鸡的我，都有了一定的提升。而在使用任务清单的过程中，就会不自觉地进行目标的规划和任务的肢解，因此在任务完成度有了明显的提升。此外我开始尝试使用使用番茄钟，至少在一个番茄钟的25分钟内，不玩手机，只做一件事情。毕竟哪怕只学习25分钟，也算是好事啊。。目前“规划”、“行动力”、“专注度”这三个点都有了一定的提升，接下来需要进行的就是得到足够的投入。“种一棵树最好的时光是十年前”说的另外一件事是“长成一棵树需要很长的时间”。在清晰合理的目标推动下，我们的投入那么就会被赋予更加深入的一层意义，这就是常说的过程财富。（当然大概率其实是沉没成本）

Reference

https://www.yuque.com/xcodebuild/thinking/pogui1 ↩︎

2024，公开表达元年

Sat, 28 Dec 2024 21:00:00 GMT

历史年终总结

等待新的生命

如果今年要挑一个最重大的事情，那只能是点点(我妻子)怀孕了，我明年就要当爹了。这事情的影响是非常巨大的，不仅涉及到家庭，而且是一个需要长期付出不可逆的过程。有无孩子一定会是两个截然不同的世界，所以我是有些恐慌的（教育孩子的难度不言而喻）。

由于点点想生两个孩子，因此在去年结婚之后，就开始盘算着什么时候生娃，不然到时候得做高龄产妇。左思右想后决定从 4 月份开始备孕，并且一定要让孩子在次年 9 月之前出生。之所以有这么荒诞的想法是因为我国的入学政策是：“凡年满6周岁的儿童，其父母或者其他法定监护人应当送其入学接受并完成义务教育。”

“年满6周岁的儿童”即在新学年开始前也即在每年9月1日前年满6周岁的儿童、少年。
换句话说就是：如果不是在 9 月 1 日之前出生的孩子得和次年的 9月1日之前的孩子一起上学。

这里有一个很有意思的内容，关于点点的高度不自洽，一方面天天讲以后孩子打螺丝能养活自己就好了，一方面又很焦虑孩子的入学时间，不然可能导致她/他以后读博可能有年龄压力（就半年也不至于吧，而且孩子一定想读博吗🤣）。所以未来会怎么样呢，这种极大的不确定真是让人又担心又期待。

经过半年的时间，周末各种跑医院，所幸预产期会是在 25年的 9 月前，缓解了点点下半年最大的烦恼，但随之而来的孕早期一系列的孕反，嗳气、呕吐、尿频等，十分不易。我也在反思自己，我的关心不够，好像真的只会抖机灵逗她开心。。。

公开表达元年

如果要说今年最有意义的是一件事情，那就是【从十月份开始时不时录制一些技术视频】，并把它分享在 B站上。正是因为这样的公开表达，最终收获了一些朋友的关注，尤其部分比较热心的人甚至会私信我表示感谢，这里面充满了正反馈，也让我感受到了一点点意义。这里简单讲一下相关的数据（以后全网基本都叫【chaofa用代码打点酱油】了）

B 站，累计获得播放 10W+，收获粉丝 4.7k，很有成就感。

我写博客其实还挺早的，但是根本没有人在看，没有什么反馈，基本属于自嗨。第一次自建博客是 17年，那个时候写了一个关于自己学习 React 的一些记录，但是后面读研之后不做前端了就把对应的内容删除了。后面受到【极客兔兔】在 V站发帖自建博客过程的影响，又开始第二次写自己的博客，这时候是 19年的 6 月份，也就是当前的博客：chaofa用代码打点酱油，改过很多次名字，但唯一值得高兴的时候，这个博客持续存在了 5年，里面记录了自己很多的碎碎念。

那么为什么今年我却把它称为【公开表达元年】，因为这一次不一样了。以前我想过写公众号，想过做视频，想过回答知乎问题，但是大多数都没有坚持下去。为此我今年反思了一下为什么以前没有持续下去？

公开表达的羞耻。程序员圈子很小，做相同的岗位的就更少了，因此写的东西很容易被同事、朋友看见，这时候总会有一种羞耻感，会想自己是不是太装逼了，是不是说了什么不合时宜的话。此外，因为自己在互联网大厂上班，朋友转发你的内容给自己的时候还会调侃几句，比如「工作不饱和啊」之类的，这时候只能相视一笑。
- 但将心比心，我自己看到那些在持续做内容的博主，是非常佩服他们持续输出表达的能力与毅力，因此别人看你亦如是，只要做得足够多，自然会得到别人的认可。
懒惰的惯性。懒惰这件事是自己无论如何都没法推脱责任的，平常工作确实是挺累的，但是大多数情况下周末是有足够的时间去做【公开输出】的，但是短视频、动漫、各种信息流，真的太吸引人了，躺在床上不一会一天就过去了。
输出的难度远大于输入。我们大多数人都只是互联网的世界的消费者，每天都会输入很多的内容，这就是因为要做输出是很难的。

大多数人都知道“公开表达是难却正确的事情”，但是真正的领悟者却不多，李笑来在《把时间当做朋友》一书中提到，互联网用户行为遵循 "90-9-1原则"。

90% 的用户是潜水者，只消费内容。
9% 的用户偶尔参与互动，如评论或分享。
1% 的用户是主要的内容创作者。

不是说因为创作者特别稀疏我们采取成为创作者的，而是这其中有巨大的好处。

每个人都有被看见的需求，只有生产才有可能被人看见。
产生有价值的内容是能够帮助到别人的。我自己是从很多公开的博客或者公众号获取到了很多知识，很感谢他们，帮助我进步。
可以认识一些大佬。这也许不算是什么目的，不过人就是会相互吸引。只要内容有价值，就会有人去看，那么自然应该会认识一些大佬。举个例子：我以前一直听播客（硬地骇客），然后因为我开始做公开表达了之后，明年也许有机会一起录一期播客，这真的很赞。

那么后面我应该怎么做呢？

持续、体系化的发表我的学习思考，比如《LLMs101-from-zero-to-hero》，这个系列应该会比较有意思吧。（立个 flag，明年我想把它体系化成一本电子书）
持续在公开网络上宣传自己的内容。哪怕强如「苏剑林，苏神」，除了在自己的博客中发表文章之外，也会一些交流群发布自己的文章链接。现在的内容太多了，除了依赖于推荐算法，我们还是需要适当的去社交媒体传播自己的内容。尽管自己生产的内容肯定不是最优质的那一批，但从部分读者的反馈看，我的内容还是有一些价值的，所以要慢慢刨除宣传羞耻感。

职场深度求索

去年换工作之后，高强度的工作了一段时间，加上和岗位、老板的风格不是很适应，没干多久就感觉天天精疲力尽的，很快就想要辞职，但是迫于职业生涯的延续性，我自然是不敢真的就裸辞，因此在苦苦坚持，想要寻求一些方法延续自己的职业生涯，比如：自我鼓励——《工作，再坚持坚持》，理性分析——《如何在大厂工作六个月以上且保持一定的心理健康?》，只能说收效甚微。毕竟饿了就想吃饭，累了就会想休息，天经地义。

差不多待一年之后，就开始考虑活水转岗 or 换工作，不过深圳的就业机会还是较少，思来想去还是觉得活水合适一些。然后开始内部看一些机会，这个时候又涉及到去干什么业务的问题，所以很纠结到底干什么？继续和在腾讯一样做广告相关的业务，还是去做搜索，还是去做推荐，还是去做纯AIGC的业务，还是去做NLP相关的业务，最后兜兜转转又到了与我最有缘分的客服。

活水可能也算是一次跳槽吧，毕竟也要经过3轮技术面试，因此我基本把它当作全新的工作，工作方式也适当地做出一些改变。工作上一直在向表现好的大佬学习，希望明年工作上有一些突破。

回应去年

健身
- 去年完成的最好的事情，却是今年完成最差的事情
- 全年锻炼加起来可能不足 30次吧，比去年少了 3倍有余，尤其是 6月之后基本就没怎么去过健身房了。
播客-打点酱油。目标是录制 4 期，但实际上也只录制了两期。整体还算满意吧。
- 不过有一个 highlight，有机会做客硬地骇客，这个很棒。
博客
- 基本达成去年定下的 20k pv，10k uv 的目标。明年的目标是继续翻倍，这个应该没有什么悬念，只要持续输出就应该比较容易达到吧。
投资
- 投资一塌糊涂。因为投资了A股和中概，亏损不容小觑。以后有机会可以写一个【程序员破产之路】系列文章。
- 从去年结婚后，开始进行投资记账，一共 400多天，有知有行显示我的资金加权收益 -14%，年化收益 -11.32%。
读书。今年几乎没怎么看书，很失败，不过是早有预期的。

展望明年

工作。工作优先级还是很高，毕竟要是没有工作带来的现金流会很容易摧毁一个家庭，尤其是明年还有新的生命，持续的现金流还是非常的重要。
投资。减少投资上的关注，减少个股的投资，个股投资不能超过仓位 10%，此外要减少中概的持仓，还是换成 ETF 更容易拿住。（把钱还我，我不想玩了）
公开表达。明年要继续做体系化的视频，多分享文章，希望能有更多的正反馈，比如读者邮件（🤣
健康。希望家人都身体健康，明年再多多锻炼吧，明年再定一个 100 次/年的锻炼目标，30mins+/次。

chaofa用代码打点酱油

2025-05-35岁之前赚不到一千万是我的错吗？

1. 承担 5% 的责任

2. 金钱的分量

3. 工作、投资、生活

自适应快慢思考推理模型（Adaptive Reasoning Model）：Qwen3混合思考->字节AdaCoT->清华AdaptThinking

1. 背景

2. 阿里 Qwen3 混合思考

2.1 训练

2.1.1 （主）SFT 数据构造

2.1.2 强化学习RL

2.1.3 推理

3. 字节Seed AdaCoT

3.1 训练

3.1.1 SFT 冷启动

3.1.2 （主）RL 训练

PPO 训练

Selective Loss Masking

3.2 实验结论

3.3 其他

4. 清华 AdaThinking

4.1 前置分析

4.2 （主）RL 训练

4.2.1 RL for Constrained Optimization Objective

4.2.2 修改重要性采样

4.3 实验结论

5. 总结

其他

手写 Self-Attention 的四重境界，从 self-attention 到 multi-head self-attention

背景

Self-Attention

Self Attention 的公式

补充知识点

第一重: 简化版本

第二重: 效率优化

第三重: 加入细节

面试写法 （完整版）--注意注释

MultiHead-Self-Attention

第四重：multi-head self-attention

交个朋友🤣

手写 transformer decoder（CausalLM）

阅读须知

知识点

交个朋友🤣

手写大模型组件之Group Query Attention，从 MHA，MQA 到 GQA

multi-head self-attention

Group Query Attention

Multi Query Attention

交个朋友🤣

LoRA 原理和 PyTorch 代码实现

背景

核心原理

PyTorch 代码实现

References

交个朋友🤣

LLM activate function激活函数的进化之路，从 ReLU，GELU 到 SwiGLU(swishGLU)

1. 背景

2. 升级之路

1. ReLU

2. GELU

3. SwiGLU（SwishGLU）

3.1 swish 激活函数

3.2 GLU 门控单元

3.3 SwiGLU 的表达形式

3. 带有 swishGLU 的 FFN 代码实现

参考

LLM MOE的进化之路，从普通简化 MOE，到 sparse moe，再到 deepseek 使用的 share_expert sparse moe

1. 阅读前提

2. 版本1：基础版本MOE

2. 版本2：SparseMoE （大模型训练使用）

3. 版本3：ShareExpert SparseMoE （deepseek 版本）

4. 模型训练测试

5. 课后作业

交个朋友🤣

2020年过去了，我不怀念它

这一切都不是我们的选择

我的2020

读书

娱乐

科研

面试写法（完整版）--注意注释