开车、本能与持续学习
早上开车上班。脑子里在想 AI Code 的事,想着想着,突然意识到自己在开车。
转弯已经转了,转向灯已经打了,红灯前已经停了。不知道什么时候做的,但都做了。大脑里似乎有个地方,在我思考别的事情时,自己把车开着。不经意间,运转良好。
这让我觉得有点神奇。
我们说”本能”,通常是指天生的东西。眨眼,恐惧,婴儿吮吸。但开车不是天生的。没有人出生就会开车。它明明是后天学会的,却表现得像本能一样——不需要你想,它自己就发生了。
认知科学上管这叫”自动性”(Automaticity,Shiffrin & Schneider, 1977)。刚开始学车的时候,每一个动作都要刻意去做。踩离合,挂二挡,看后视镜,松手刹。每一个步骤都需要你的注意力,像在操作一台精密的机器。但练着练着,这些步骤开始融合。某一天你发现,你不再需要”想”怎么开车了。你只需要”去”哪里。
意识退场了。但执行没有退场,甚至更好。
更有意思的是,如果你刻意想着”我要好好开”,反而容易紧张出错。放空的时候,反而开得顺。这说明什么?说明当系统2——也就是那个需要你刻意调用的、慢速的推理系统(Kahneman, 2011)——试图接管本该系统1处理的事情时,它不是在帮忙,而是在添乱。
大脑有一个自己运转的部分。你不去管它,它反而管得好。
现在的 LLM,是一个纯”意识层”的存在。它没有潜意识。每一次生成 token,都是整个模型在参与。没有什么是”自动化的”,没有什么是”不需要想就能做的”。它像一个永远在学车的新手,每一脚离合都要从头想一遍。
这当然不够。人脑是分层的。底层处理日常,上层处理创造。两层可以并行——就像我边开车边想 LLM 一样。
MoE,混合专家模型(Jacobs et al., 1991),某种程度上在做这件事。不同的 token 激活不同的专家,不是每次都全员出动。但 MoE 的专家是训练时就固定好的。它不会因为开了三年车,就自动生长出一个”驾驶专家”出来。
而人脑会。
开车这件事,最初是很多个”专家”的协作。视觉判断距离,运动控制方向盘,决策判断刹车时机。这些协作练着练着,被蒸馏(Hinton, 2015)成了一条快速通路。多个专家的配合,最终沉淀为一个无需意识参与的自动化模块。
MOE 加蒸馏加持续学习。这三个词连在一起的时候,我突然觉得,这可能是 LLM 真正需要的东西。
但这里有一个很难的问题。
人脑的”学习”,不是把所有旧知识永远保留着。我学 K8s 第一天背的那些 YAML 字段,现在肯定记不全了。但我知道 K8s 的设计理念,知道它为什么是这样。旧知识没有消失,它被提炼了,压缩了,变成了更高层的抽象。
这不是”持续学习”。这是”迭代”。
知识经过实践,被提炼,被压缩,变成下一版本的知识。就像软件的版本升级——你不需要保留每一行废弃的代码,但设计思想沉淀了下来。
UIUC 的 Li 和 Hoiem 在 2016 年提出过一个叫 LwF 的方法——Learning without Forgetting。思路很直接:学新东西之前,先把旧模型的输出蒸馏成约束,让新模型在学新知识的同时,别把旧的搞丢了。
方向对了,但不够。他们解决的是”不要忘记”,而不是”学会迭代”。人脑不是不忘,而是会主动遗忘不重要的东西,给新知识腾空间。这种”选择性遗忘”,AI 目前还做不到优雅地实现。
其实回过头看,LLM 的下一步,大概就三条路。
一条是等一个比 Transformer 更好的结构出现。Mamba(Gu & Dao, 2023)、RWKV(Peng et al., 2023)、Liquid Neural Networks(Hasani et al., 2021)都在尝试,但还没有谁能真正取而代之。MIT 提出的液态神经网络很有意思——它的核心创新不是固定的权重,而是让时间常数(time-constant)成为输入相关的动态变量。这意味着什么?意味着它在运行时是动态变化的。某种意义上,这就是我开车时大脑在做的事——根据当前场景调整,而不是查一张固定的参数表。
一条是继续把 Transformer 往深了做。现在的主流做法不是单纯堆层数,而是用 MoE 在不增加推理成本的前提下扩展规模——比如 DeepSeek V3 有 671B 总参数但每次只激活 37B。Kimi 团队最近发表的 Attention Residuals 论文,用学习到的注意力机制替代固定的残差连接,让每一层能自适应聚合前面各层的表示,从而改善深层网络的梯度流动。但这更像是在榨干 Transformer 的最后一点潜力。
还有一条,是我觉得最被低估的:持续学习方向上的突破。打破训练和推理的边界,让模型能在运行中真正地”学到”东西,而不仅仅是”回忆”训练时学过的东西。
如果押注的话,我押第一条和第三条的结合。一个天然支持持续学习的新结构。但谁知道呢。也许真正的突破来自一个完全意想不到的方向。