Esc

2025-06-念头通达

寻找真正让人幸福的工作,同时分享了在大模型 Agent 落地过程中关于平台化思维和乐观心态的思考,这是一篇关于自我认知升级与工作态度蜕变的月度总结。

月度总结 杂谈 chaofa month-summary

2025-05-35岁之前赚不到一千万是我的错吗?

小镇青年、一直在一线大厂,工作也很努力,学历也不差,一技之长(写代码),也没有离谱投资和创业,但是离赚一千万远得有点离谱。哪怕算上未来的通胀、非线性的增长,甚至出现奇迹般的狗屎运,也几乎无法达到这个目标。所以到底是哪里出了问题呢?

月度总结 杂谈 chaofa month-summary

自适应快慢思考推理模型(Adaptive Reasoning Model):Qwen3混合思考->字节AdaCoT->清华AdaptThinking

深入分析三个快慢思考模型的实现:阿里Qwen3通过SFT实现的混合思考、字节AdaCoT基于RL的帕累托最优化、清华AdaThinking的受限优化框架。详细解读代码实现、训练方法和实验效果,探讨如何让模型在保持准确率的同时减少不必要的思考过程。对于想了解大模型推理优化的读者很有帮助。

paper-reading LLM paper

DeepSeek-GRM:Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型)

DeepSeek团队提出全新通用奖励模型DeepSeek-GRM,通过Self-Principled Critique Tuning(SPCT)方法实现推理时动态扩展能力。该研究突破传统规则奖励模型的局限,在角色扮演、创意写作等开放领域展现卓越性能。27B小模型效果超越340B大模型,且具备更少领域偏差。文章详解训练策略(RFT+在线强化学习)和推理优化(投票机制+元奖励引导),实验结果证实推理时扩展可显著提升效果,这是 DeepSeek-R2 的前兆吗?

paper-reading LLM paper

2025-03-走慢些,走远点

走慢些,走远点。整个 Q1 都处于比较紧张的状态,工作日忙工作,周末学点知识或者做视频,整个人非常地疲劳,但已经明显感觉到不可持续了。而无论是工作、开源项目还是投资,都是需要长期地投入,并且保持耐心,适当的放松是为了走得更远。

月度总结 杂谈 chaofa month-summary