开车、本能与持续学习

早上开车上班。脑子里在想 AI Code 的事，想着想着，突然意识到自己在开车。

转弯已经转了，转向灯已经打了，红灯前已经停了。不知道什么时候做的，但都做了。大脑里似乎有个地方，在我思考别的事情时，自己把车开着。不经意间，运转良好。

这让我觉得有点神奇。

我们说”本能”，通常是指天生的东西。眨眼，恐惧，婴儿吮吸。但开车不是天生的。没有人出生就会开车。它明明是后天学会的，却表现得像本能一样——不需要你想，它自己就发生了。

认知科学上管这叫”自动性”（Automaticity，Shiffrin & Schneider, 1977）。刚开始学车的时候，每一个动作都要刻意去做。踩离合，挂二挡，看后视镜，松手刹。每一个步骤都需要你的注意力，像在操作一台精密的机器。但练着练着，这些步骤开始融合。某一天你发现，你不再需要”想”怎么开车了。你只需要”去”哪里。

意识退场了。但执行没有退场，甚至更好。

更有意思的是，如果你刻意想着”我要好好开”，反而容易紧张出错。放空的时候，反而开得顺。这说明什么？说明当系统2——也就是那个需要你刻意调用的、慢速的推理系统（Kahneman, 2011）——试图接管本该系统1处理的事情时，它不是在帮忙，而是在添乱。

大脑有一个自己运转的部分。你不去管它，它反而管得好。

现在的 LLM，是一个纯”意识层”的存在。它没有潜意识。每一次生成 token，都是整个模型在参与。没有什么是”自动化的”，没有什么是”不需要想就能做的”。它像一个永远在学车的新手，每一脚离合都要从头想一遍。

这当然不够。人脑是分层的。底层处理日常，上层处理创造。两层可以并行——就像我边开车边想 LLM 一样。

MoE，混合专家模型（Jacobs et al., 1991），某种程度上在做这件事。不同的 token 激活不同的专家，不是每次都全员出动。但 MoE 的专家是训练时就固定好的。它不会因为开了三年车，就自动生长出一个”驾驶专家”出来。

而人脑会。

开车这件事，最初是很多个”专家”的协作。视觉判断距离，运动控制方向盘，决策判断刹车时机。这些协作练着练着，被蒸馏（Hinton, 2015）成了一条快速通路。多个专家的配合，最终沉淀为一个无需意识参与的自动化模块。

MOE 加蒸馏加持续学习。这三个词连在一起的时候，我突然觉得，这可能是 LLM 真正需要的东西。

但这里有一个很难的问题。

人脑的”学习”，不是把所有旧知识永远保留着。我学 K8s 第一天背的那些 YAML 字段，现在肯定记不全了。但我知道 K8s 的设计理念，知道它为什么是这样。旧知识没有消失，它被提炼了，压缩了，变成了更高层的抽象。

这不是”持续学习”。这是”迭代”。

知识经过实践，被提炼，被压缩，变成下一版本的知识。就像软件的版本升级——你不需要保留每一行废弃的代码，但设计思想沉淀了下来。

UIUC 的 Li 和 Hoiem 在 2016 年提出过一个叫 LwF 的方法——Learning without Forgetting。思路很直接：学新东西之前，先把旧模型的输出蒸馏成约束，让新模型在学新知识的同时，别把旧的搞丢了。

方向对了，但不够。他们解决的是”不要忘记”，而不是”学会迭代”。人脑不是不忘，而是会主动遗忘不重要的东西，给新知识腾空间。这种”选择性遗忘”，AI 目前还做不到优雅地实现。

其实回过头看，LLM 的下一步，大概就三条路。

一条是等一个比 Transformer 更好的结构出现。Mamba（Gu & Dao, 2023）、RWKV（Peng et al., 2023）、Liquid Neural Networks（Hasani et al., 2021）都在尝试，但还没有谁能真正取而代之。MIT 提出的液态神经网络很有意思——它的核心创新不是固定的权重，而是让时间常数（time-constant）成为输入相关的动态变量。这意味着什么？意味着它在运行时是动态变化的。某种意义上，这就是我开车时大脑在做的事——根据当前场景调整，而不是查一张固定的参数表。

一条是继续把 Transformer 往深了做。现在的主流做法不是单纯堆层数，而是用 MoE 在不增加推理成本的前提下扩展规模——比如 DeepSeek V3 有 671B 总参数但每次只激活 37B。Kimi 团队最近发表的 Attention Residuals 论文，用学习到的注意力机制替代固定的残差连接，让每一层能自适应聚合前面各层的表示，从而改善深层网络的梯度流动。但这更像是在榨干 Transformer 的最后一点潜力。

还有一条，是我觉得最被低估的：持续学习方向上的突破。打破训练和推理的边界，让模型能在运行中真正地”学到”东西，而不仅仅是”回忆”训练时学过的东西。

如果押注的话，我押第一条和第三条的结合。一个天然支持持续学习的新结构。但谁知道呢。也许真正的突破来自一个完全意想不到的方向。

随笔

AI LLM 思考

转载请注明出处

释放超级算力：深入解析NVIDIA IMEX在Kubernetes上的实现下一篇