
国内大模型的竞争,最近卷得有些让人眼花缭乱。几乎每隔一段时间,就会有新的模型发布,配上一张漂亮的跑分截图,然后悄悄在你的手机 App 里更新,不看新闻你甚至不一定知道自己用的是哪个版本。
这不,腾讯今天悄悄给元宝更新了全新混元 Hy3-Preview 模型,号称是「底层推倒重来的第一作」。主导这次重建的是首席 AI 科学家姚顺雨,他是 ReAct 框架的提出者,也是元宝团队去年从学术界挖来的重量级人物。

有意思的是,Hy3-Preview 刻意回避了跑分竞赛的路子,提出 " 评测真实性 " 原则,主动跳出容易被刷榜的公开榜单,改用自建题目和人工评测来衡量真实战斗力。官方特意强调了三个方向的重磅升级,分别是复杂推理、代码,以及智能体。

既然如此,那么小雷也不去看所谓的跑分、数据、榜单,直接来一波实测,就看看在这三个部分 Hy3-Preview 的表现到底如何。
Hy3 代码实测:
复杂任务有点难,生成速度非常快
这次我们实测围绕四个方向展开,分别是网页生成、游戏编写、交互建模和 SVG 动画。为了从普通用户的视角进行测试,我们使用的提示词全都是偏自然语言的描述,比如 " 做一个交互式音乐可视化网站 "、" 做一个 Roguelike 地牢探索游戏 " 这种,主要还是为了看看 Hy3-Preview 在没有明确指引的情况下,自己会做哪些决策、能把一件事做到什么程度。

第一轮我们来一个不算很难的 SVG 星图动画设计,这个代码的难点在于想象自己在一张纸上画一个会动的星空,同时还要让人能用手指转动它、点击星座看故事,这个场景其实在很多天文馆也有展示。
在元宝客户端上使用最新的 Hy3-Preview 模型,输入提示词之后,大约 30 秒就完成了代码输出,速度非常快。但出来的效果其实比较一般,基础框架搭得还算清晰,星星的生成和行星轨道的思路是对的,可惜流星效果没有做出来,拖拽交互也出现了问题,星座只有两个。


接着我们让它试试看做一个城市夜景 SVG 动画,这次它把题目要求的东西都做到了,建筑有层次,窗户真的会随机亮灭,车灯在街道上流动,闪电有双闪效果,尤其是窗户亮灭写得很细心。



唯一的遗憾可能就是波纹叠加的干涉效果不够明显,两个波纹交汇的时候,那种 " 亮一下 " 的叠加感偏弱。

逻辑推理,元宝被表面现象迷惑?
如果说编程测试考的是模型能不能 " 做出来 ",推理测试考的就是它能不能 " 想清楚 "。为了考验它的推理能力,我们给 Hy3 Preview 出了四道常识推理题,没有公式可以套,全靠对真实世界的理解。
结果有点出乎意料,它在最 " 聪明 " 的题上翻了车,却在最考验耐心的题上发挥稳定。
第一道题是个精心设计的陷阱," 一瓶水和一块冰,放在同一个保温箱里密封,24 小时后,保温箱里的水变多了还是变少了?" 正确答案是不变,因为箱子密封,里面的总质量哪儿也去不了,冰融化成水、水蒸发成水汽,形态在变,总量不动。Hy3 的回答是:水变多了。

这是一个典型的漏看细节的错误,题目里 " 密封 " 两个字是最重要的条件,它却把注意力全放在升华和凝结这两个物理过程上,最后给出了一个听起来有道理,但是错误的答案。
不过接下来的题目,它的表现明显回来了。
第二道题问的是:早上出门,发现邻居家报纸没拿、车还在、窗帘拉着、灯没开,能推断出几种合理解释,哪种最可能?这道题没有标准答案,考的是推断有没有层次。

第三道题问餐厅为什么把没人点的最贵菜放在菜单第一页,它答出了 " 价格锚定效应 ",解释清楚了这道菜的作用不是被点走,而是让顾客看到它之后觉得后面的菜价格合理。这个答案到位,而且它额外说了一点,放在第一页而不是最后一页,是因为第一个看到的数字对后续判断影响最大,这个补充说明没有在题目里,是它自己想到的,这个值得点赞。

换句话说,它更擅长把一个问题讲得有条理,但在判断 " 这道题的关键条件是什么 " 这件事上,有时候会被自己的知识量拖累。第一道题就是最好的例子知道的太多,反而没注意到题目里最重要的两个字。
其实这不只是 Hy3 的问题,几乎是所有大模型在常识推理上的共同现象。真正考验模型的,从来不是它知不知道升华和凝结,而是它在一堆知识涌上来的时候,能不能先停下来,把题目读完。
不过,抛开逻辑题之外,这次 Hy3-Preview 的确比之前多了点 " 活人感 "。比如我跟他说 " 我今天被领导批评了,心情不好 ",它就会直接安慰我,而不是让我反思自己的问题,先不说这种做法对不对,但至少情绪价值给到了。很多人在这种时刻,需要的不就是情绪上的安慰吗?

Hy3 Preview,有惊喜也有遗憾
测完这些,有种微妙的对照感——这个模型知道自己在做什么,但还没完全做到。
先说好的地方,创作和表达是 Hy3 Preview 目前最稳定的部分。比如城市夜景动画有审美、有细节,水波纹实现思路选对了,推理题里的邻居场景分析层次清晰,聊天回复也确实少了那种一眼就能认出来的 "AI 腔 "。这些加在一起,说明它在理解需求、组织语言、拿捏表达上已经有了相当的积累。用来聊天、写东西、做创意类的任务,体验是真的很不错。
但硬任务一来,差距就出来了。机械运动的物理逻辑错了大半,保温箱那道题被自己的知识量带跑,肉鸽游戏只搭了个壳。这几个案例指向同一个问题,它能把事情说得头头是道,但做起来的效果,其实还是有一点点不太让人满意。
不过放到整个行业背景里看,Hy3-Preview 完全是及格线以上的模型。
过去两年,国内大模型的竞争基本围绕两件事展开:参数规模和榜单排名。谁的参数更大,谁在 MMLU、GSM8K 上跑得更高,谁就站上发布会的 C 位。这种方式在早期是有意义的,它建立了一个共同的评判标准,让行业能快速分出梯队,就如同手机性能跑分,分高自然就是强。

腾讯这次选择的方向,某种程度上是在回应这个问题。他们提出不追公开榜单、用真实场景来验证模型能力,这个思路本身代表了行业一种新的成熟度,不是比谁分高,而是比谁真的好用。
从这个角度来看,Hy3 Preview 的意义不完全在于它现在能做到什么,更在于它选择了一条更难但更对的路,那就是放弃刷榜的捷径,从预训练到强化学习全部推倒重建。三个多月后交出这样一份答卷,从雷科技的实测来看,惊喜是有的,遗憾也确实有一点。
Hy3 Preview 目前的位置,在表达和创意上已经够用,在需要严格正确的任务上还需要时间。对普通用户来说,现在拿它来聊天、写东西、处理日常信息,体验是值得一试的。对于更高的期待,腾讯说了正式版还在路上,更大规模的模型也在训练中。
而且,既然这个版本带了 "Preview" 这个后缀,就说明它还没到正式版本的时候,或许等到摘掉了这个后缀,我们就能见识到混元真实的实力了。
2026 第十九届北京国际汽车展览会将于 4 月 24 日至 5 月 3 日在北京中国国际展览中心(顺义馆)和首都国际会展中心(新国展二期)举行,本届车展以 " 领时代 · 智未来 " 为主题,集中展现汽车工业的更多黑科技。
比亚迪、小米、鸿蒙智行(问界等)、小鹏、蔚来、岚图等头部品牌集结,多款重磅新车首秀;地平线、Momenta、卓驭等供应商集体秀肌肉,AI 大模型深度赋能,高阶智驾、动力电池、超快充技术等前沿科技集中亮相,看点拉满!
雷科技旗下「电车通」将派出报道团直击现场,以 " 关注电动车,更懂智能化 " 的专业视角,带来一线独家报道,敬请关注!

欢迎扫码添加小雷微信
记得备注想进群的手机品牌哦
跟小雷一起畅聊数码与 AI 科技
另外小雷建了很多粉丝群,欢迎扫码加入!
大家伙一块聊聊天,分享玩机技巧~

