APP下载

关于ZAKER

Skills 合作

量子位 17小时前

大模型也需要睡觉！让 AI 打个盹，醒来更聪明

7 × 24，AI 也吃不消。

卡内基梅隆大学和马里兰大学发了篇论文，《Language Models Need Sleep》——

大模型处理长上下文的时候，硬撑着不休息，真的会累傻。

这项研究的灵感源自人脑运作机制。

人睡觉的时候海马体会把白天的短期记忆一遍遍回放，巩固进皮层突触，变成长期知识。

研究团队认为模型也可以这样，设计了一个睡眠机制，让大模型上下文窗口快满的时候别硬撑了，打个盹把最近的上下文反复咀嚼几遍，压缩进长期权重，清空缓存，醒了再接着干。

测试发现，合理增加 " 睡眠 " 迭代轮次，能明显提升模型在深度推理类任务上的表现。

尤其是那些需要一步接一步推导的难题，越复杂，模型越需要多睡一会儿。

咋回事？

大模型到底怎么了，非要睡觉

Transformer 的核心是注意力机制，但注意力有一个天生的短板就是，上下文越长，算力平方级往上蹿，KV 缓存也线性往上涨。

同样是推理任务，8K 上下文窗口和 128K 上下文窗口的算力成本差距极大，多出的算力基本都消耗在了历史信息的关联计算上。

所以现在的做法两种：

要么就硬扛，扛不住了就把老信息踢出缓存，但踢出去的东西，模型就当没发生过；

另一类就是两年流行的SSM+Attention混合架构，比如 Samba、Qwen3.5。

混合架构是想了个折中方案，把老信息压缩进快速权重 fast weight，不占缓存，同时保留信息的可调用能力。

这确实缓解了一部分内存压力，但团队发现即便快速权重还有充足容量，当推理步骤变多、逻辑链条变长时，模型依旧会出现性能失效的问题。

也就是说当下的瓶颈并非信息存储能力不足，而是深度推理能力跟不上。

历史信息被移出 KV 缓存前，模型仅有一次前向传播的机会完成信息内化，单次处理根本不足以支撑复杂逻辑的拆解与推导。

这一点和人脑比较像，你白天经历了一大堆事情，不是当场全消化掉的，而是大脑等你睡着了再处理。

海马体在睡眠期间一遍遍回放白天的重要片段，把短期记忆巩固进皮层突触，变成长期知识。

但这个过程必须离线，也就是你得先睡着，把外部刺激暂时关掉，大脑才能集中算力干消化这件事。

而且它不是回放一遍就完，得多放几遍。

模型的睡眠长什么样

团队把人脑这一整套逻辑搬到了模型上。

他们的设计是当模型上下文窗口快满的时候，不硬撑了，直接让大模型睡觉。

这里的睡觉是指暂停接收新 token，进入纯离线状态，针对已积累的全部上下文，执行多轮递归前向传播。

依靠可学习的局部规则，反复对信息进行提炼整合，逐步更新 SSM 模块内的快速权重，完成信息的深度压缩与消化。

消化完了就清空 KV 缓存，带着更新后的权重醒来，接着干活。

从算力分配来看，额外的计算开销全部集中在 " 睡眠 " 阶段，型苏醒后的正常推理流程和常规模型保持一致，只需要一次前向传播。

这里的 " 睡眠时长 "，本质上就是信息迭代处理的轮次，轮次越多，代表模型对上下文内容的梳理、打磨次数越充分。

团队选用元胞自动机、多跳图检索、GSM-Infinite 无限数学推理三类任务开展测试，因为这几类任务可以精准控制推理深度与记忆负载两大变量。

测试结果清晰印证提升睡眠迭代轮次，模型整体性能稳步提升，而且性能提升主要体现在高难度深度推理任务上。

也就是说简单的题醒着就能秒了，难的题需要睡一觉，得经过多轮梳理，才能理清思路。

只能说，摸鱼休息确实是提升效率的妙招，有时候停下来才能好好思考（doge）。

论文地址：https://arxiv.org/abs/2605.26099

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题 扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

新浪财经昨天

玩具相机成出片神器？学生党用「行车记录仪」拍照，画质越烂越有味

雷科技昨天

量子位

觉得文章不错，微信扫描分享好友

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

大模型也需要睡觉！让 AI 打个盹，醒来更聪明

宙世代

一起剪

相关阅读

飞机WiFi卷成“家用宽带” 美国航空官宣500架客机接入星链

武契奇在小米汽车工厂下单：都买了啥

北大打造真3D EDA工具原型：可适配华为韬定律逻辑折叠

“六小龙”前高管做AI相机，30天估值翻倍

1.89亿！富创精密拟收购上海日扬65%股权 切入半导体真空阀赛道

月活破4亿、时长同比增长43% 小红书加码中长视频赛道

卢伟冰明确：小米汽车2027年三四季度启动出海！

“手擀”商标翻车 克明卖面生意承压

子公司签下60亿元算力协议 盛视科技上月称拟购买不超71亿元资产

黄仁勋：AI时代孩子学什么专业没那么重要 真正要紧的是会不会用AI

当AI成为你的“同事”，组织真的开始变了

横店片场大变局，不是寒冬而是新生

小米汽车计划2027年三四季度启动出海，明确海外市场推进策略

Kensington推出入门级雷电5扩展坞 80Gbps速度支持三路4K

玩具相机成出片神器？学生党用「行车记录仪」拍照，画质越烂越有味

最新评论

量子位

热门推荐

企业资讯

1.89亿！富创精密拟收购上海日扬65%股权切入半导体真空阀赛道

“手擀”商标翻车克明卖面生意承压

子公司签下60亿元算力协议盛视科技上月称拟购买不超71亿元资产

黄仁勋：AI时代孩子学什么专业没那么重要真正要紧的是会不会用AI