7 × 24,AI 也吃不消。
卡内基梅隆大学和马里兰大学发了篇论文,《Language Models Need Sleep》——
大模型处理长上下文的时候,硬撑着不休息,真的会累傻。

人睡觉的时候海马体会把白天的短期记忆一遍遍回放,巩固进皮层突触,变成长期知识。
研究团队认为模型也可以这样,设计了一个睡眠机制,让大模型上下文窗口快满的时候别硬撑了,打个盹把最近的上下文反复咀嚼几遍,压缩进长期权重,清空缓存,醒了再接着干。

尤其是那些需要一步接一步推导的难题,越复杂,模型越需要多睡一会儿。
咋回事?
大模型到底怎么了,非要睡觉
Transformer 的核心是注意力机制,但注意力有一个天生的短板就是,上下文越长,算力平方级往上蹿,KV 缓存也线性往上涨。
同样是推理任务,8K 上下文窗口和 128K 上下文窗口的算力成本差距极大,多出的算力基本都消耗在了历史信息的关联计算上。
所以现在的做法两种:
要么就硬扛,扛不住了就把老信息踢出缓存,但踢出去的东西,模型就当没发生过;
另一类就是两年流行的SSM+Attention混合架构,比如 Samba、Qwen3.5。

这确实缓解了一部分内存压力,但团队发现即便快速权重还有充足容量,当推理步骤变多、逻辑链条变长时,模型依旧会出现性能失效的问题。
也就是说当下的瓶颈并非信息存储能力不足,而是深度推理能力跟不上。
历史信息被移出 KV 缓存前,模型仅有一次前向传播的机会完成信息内化,单次处理根本不足以支撑复杂逻辑的拆解与推导。
这一点和人脑比较像,你白天经历了一大堆事情,不是当场全消化掉的,而是大脑等你睡着了再处理。

但这个过程必须离线,也就是你得先睡着,把外部刺激暂时关掉,大脑才能集中算力干消化这件事。
而且它不是回放一遍就完,得多放几遍。
模型的睡眠长什么样
团队把人脑这一整套逻辑搬到了模型上。
他们的设计是当模型上下文窗口快满的时候,不硬撑了,直接让大模型睡觉。

依靠可学习的局部规则,反复对信息进行提炼整合,逐步更新 SSM 模块内的快速权重,完成信息的深度压缩与消化。
消化完了就清空 KV 缓存,带着更新后的权重醒来,接着干活。

这里的 " 睡眠时长 ",本质上就是信息迭代处理的轮次,轮次越多,代表模型对上下文内容的梳理、打磨次数越充分。
团队选用元胞自动机、多跳图检索、GSM-Infinite 无限数学推理三类任务开展测试,因为这几类任务可以精准控制推理深度与记忆负载两大变量。

也就是说简单的题醒着就能秒了,难的题需要睡一觉,得经过多轮梳理,才能理清思路。
只能说,摸鱼休息确实是提升效率的妙招,有时候停下来才能好好思考(doge)。
论文地址:https://arxiv.org/abs/2605.26099
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见