不知道最近你们的朋友圈里,有没有突然出现很多好看的信息图,排版干净,文字清晰,图标对齐,放进 PPT 直接能用。
不是你们的朋友艺术细胞爆炸了,而是 OpenAI 新模型的功劳。有设计师在 X 上问:" 我还有存在的必要吗?",评论区不语一味地发图。
引起如此高的热度,是因为 AI 生图终于过了一道门槛。
过去几年,生图模型最大的硬伤不是画不好,是写不好。图里但凡出现文字,不是缺笔少画就是乱码,信息图这种文字密度高的内容根本没法用。更麻烦的是角色一致性,同一张信息图里反复出现的图标、人物、配色,生成一次一个样,根本无法量产。
这两个问题,随着 GPT Images 2.0 出生,基本都解决了。文字渲染准了,风格能保持住,复杂排版也能跟着指令走。
但它的 API 按量计费,用量一大账单很吓人。国内访问也有门槛,团队要想把它接进工作流,几乎是不可能的。
解决方案有吗?有的。商汤带来了 SenseNova U1 系列。
像是抛下重磅炸弹,U1 一发布就全网讨论度飙升,它不但像 GPT Image 2.0 一样能做信息图,而且还免费、还开源。
SenseNova U1 系列,是商汤发布的采用全新架构的多模态模型。它不是单纯的图像生成模型,而是把图文理解、图文推理和图文生成放进同一套架构里处理。
这也是它发布时反复强调的关键词:原生统一。
过去很多多模态模型,大致是几块东西拼起来的:语言模型负责理解和推理,视觉编码器负责把图片转成模型能读懂的表示,图像生成部分再把结果转回像素。
这样当然能用,而且现在不少主流产品都是这么做的。但问题也很明显:理解是理解,生成是生成,中间需要不断做模态转换。
U1 的思路更激进一点,基于商汤的 NEO-Unify,去掉传统的视觉编码器 VE 和图像生成里常见的 VAE,让模型直接从原始像素和文字里学习。文字和图像不再被看作两套东西,而是在同一个模型逻辑里被处理。
这次开源的是 SenseNova U1 Lite 系列,包含 8B-MoT 和 A3B-MoT 两个版本。
从定位上看,U1 Lite 并不是要和最大规模的闭源模型硬拼参数,而是想做一个 " 够强、够轻、能开源、能接进工作流 " 的多模态模型。
跑分上,SenseNova U1 Lite 均达到同量级开源模型 SOTA 水平。

抛开跑分,它有两个最值得关注的能力。
一个是连续图文创作输出。
这也是最能体现 U1 这个模型的原生统一架构特征的。不是简单 " 先写一段话,再配一张图 "。传统图文内容生成,很多时候是文本模型先完成文案,再把其中某些段落交给图像模型生成插图。U1 是在一个模型内部完成文字和图像的连续生成,这属于是行业首创。
另一个是高密度信息的处理,常见的就是信息图。
这也是 GPT Images 2.0 最为人称赞的。信息图不是简单生一张好看的图,它要求模型同时处理文字结构、视觉层级、版式布局、图标关系和信息密度。以前 AI 画图最容易翻车的地方,恰好就是文字渲染和排版。
一手实测 SenseNova U1
就在刚刚,SenseNova U1 已经上线到办公小浣熊,通过点击首页上的【一图读懂】功能,就可以免费体验 SenseNova U1 的最新能力。
高密度的信息图
我们也在 U1 接入办公小浣熊的第一时间,进行了实测。
当你需要生成一张 2026 年世界杯的信息图海报,用作公众号文章配图。

生成一张中文信息图海报,主题为:"2026 年世界杯:北美足球盛会 " 整体风格:深蓝色科技感体育海报,搭配荧光绿、金色和白色高光。画面要有足球、球场灯光、北美地图、城市节点、航线、赛程表和观众灯海。整体清晰、有冲击力,适合公众号文章配图。顶部大标题:"2026 年世界杯:北美足球盛会 " 副标题:"48 支球队,3 个主办国,16 座城市 " 画面分成四个主要模块,不要太复杂,信息清楚即可。模块一:三国联合主办 位置:左上 视觉元素:北美地图,美国、加拿大、墨西哥三个国家用发光线条连接。 文字: "2026 年世界杯将由美国、加拿大、墨西哥联合举办,这是世界杯首次由三个国家共同承办。" 模块二:48 支球队参赛 位置:右上 视觉元素:一个足球放在中心,周围环绕 48 个小圆点或球衣图标,表现参赛队伍扩容。 文字: " 本届世界杯参赛球队扩展到 48 支,更多国家将登上世界足球最高舞台。" 模块三:16 座主办城市 位置:左下 视觉元素:城市天际线、体育场、发光坐标点,表现多城市承办。 文字: " 比赛将在 16 座主办城市举行,赛事将连接球场、城市、球迷和转播网络。" 模块四:冠军之路 位置:右下 视觉元素:一条发光赛程路径通向金色奖杯轮廓,周围有球员剪影和观众灯光。 文字: " 更长赛程、更大规模、更复杂的旅行距离,将考验每支球队的阵容深度与稳定性。" 底部放一条简单流程线:" 三国主办 → 48 队参赛 → 16 城开赛 → 冠军诞生 "
整体完成度较高,符合体育海报要求,深蓝科技感、球场灯光、荧光绿线条、金色奖杯等视觉元素风格统一。四宫格结构清晰,有视觉冲击力,符合公众号文章配图要求。
图片生成后,办公小浣熊还能帮你预测一波哪支球队晋级,继续生成信息图。


这次生成的主杯质感明显更好:泡沫层次、深棕色酒液、玻璃高光都有 " 高端酒单 " 的质感,整体色调也对——奶油米色背景配深咖啡棕。围绕酒杯做干净的信息图排版,视觉上更接近美食杂志的风格。
接下来测试一下,如果只给一句话 prompt ,模型是如何自由发挥能力的。
做一张漫画风格的,深圳旅游攻略。

基于大模型自身的能力,哪怕你的提示词简单,依然能生存好用的信息图。
我们还发现,它还可以基于对长文档、数据图表等的数据分析结果,生成高质量的信息图。
分析一日三餐的营养结构。 三餐内容:- 早餐:两片全麦吐司 + 一个煮鸡蛋 + 一杯牛奶 + 几颗蓝莓 - 午餐:一碗糙米饭 + 清炒西兰花 + 香煎鸡胸肉 + 一碗紫菜蛋花汤 - 晚餐:一份荞麦面 + 清蒸鱼 + 凉拌菠菜 + 半个牛油果 营养数据汇总:- 全天总热量约 1800 大卡 - 三大营养素比例:碳水 50%、蛋白质 25%、脂肪 25% - 膳食纤维约 28g,达到每日推荐量 - 三餐热量分配:早餐 30%、午餐 40%、晚餐 30%。



类似的图还有很多玩法,比如教小朋友分辨鹦鹉性格。


接下来,我们体验了 SenseNova U1 的另一个亮点能力——连续图文创作输出。
我们制作菜谱教程时候,以往还需要编辑点文字凑凑数,现在可以用 SenseNova U1 一步搞定,并且可以保持很好的一致性。
提拉米苏制作流程。

除了有教程逻辑外,SenseNova U1 还能生成不同摄影风格的图文讲解。
介绍不同风格的摄影艺术。
从思考过程可以看出,SenseNova U1 Lite 的推理本身就是原生图文交错的。


我们还尝试了将 SenseNova U1 Skill 加入办公智能体的工作流。
随着 OpenClaw 等 Agent 的普及,出现了越来越多自动化工作流,比如自动回答用户提问、根据儿童需求生成绘本等。以往这类流程需要先调用大模型处理文章内容,再生成适合生图的提示词;现在只需调用 SenseNova U1 Lite 的 skill,即可完成配图。
以完成一篇大气循环科普文章为例:


U1 系列值得关注的地方,其实不只它会生成信息图,而是它把 " 看图、理解、推理、生成 " 统一放进了同一套架构里。
过去的多模态模型更像拼装系统:语言模型负责推理,视觉编码器负责感知,图像生成模块负责输出。每一块都能用,但理解和生成之间始终隔着模态转换,做信息图、图文混排时,容易出现文字不稳、布局混乱、图文关系割裂的问题。
U1 背后的 NEO-Unify 要解决的就是这种割裂。它去掉了传统视觉编码器 VE 和变分自编码器 VAE,以统一表征取而代之,在保留语义丰富性的同时维持像素级视觉保真度。语言与视觉信息不再被分开处理,而是作为一个统一的复合体被直接建模。
这带来了一个关键结果:理解能力和生成能力可以同步增强,而不是此消彼长。
这意味着,图像不只是最后被 " 画出来 " 的结果,也可以参与模型的推理过程。所以它能做真正的连续的图文创作输出——在同一个生成过程中,文字输出和图片插入交替进行。做信息图时,它也不只是画得漂亮,而是要理解标题、模块、图标、流程线与信息密度之间的关系。
尤其对内容行业,这一点尤为关键。公众号配图、PPT、产品说明、教程图、商业分析图,很多都不是纯粹的审美问题,而是信息组织问题。SenseNova U1 把 AI 生图向 " 可视化表达工具 " 又推进了一步。

其他测试和体验渠道还包括:
GitHub:https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1
调用 SenseNova U1 Skill https://github.com/OpenSenseNova/SenseNova-Skills



