关于ZAKER Skills 合作
钛媒体 8小时前

被市场低估的,不止 Google ?

文 | 陆玖商业评论

Google I/O 大会的热度今年明显更胜以往,或许不只是因为 Gemini Omni 的亮相,更是业界希望 Gemini 需要从模型能力转化为搜索、广告、购物和云业务的收入增长。

在 Google I/O 大会之前,Google 甩出了一个新鲜热乎的大招:Gemini Omni。

具体来说,Omni 这次带来了两个 " 王炸 "。

第一个王炸:一句话生成一段完整的教学视频,如果你把 Omni 当成 Veo 系列的简单延续,那就错了。

Google 展示了一个例子——用户只输入了一条指令:

" 一位教授在传统黑板上写出三角恒等式的数学证明,同时用语言解释他当前正在推导的步骤。"

没有多轮对话,不用分步骤指挥,一次性搞定了三件事:

空间关系:手该怎么拿粉笔、写在哪里;

文字内容:公式写对了没有;

推理逻辑:推导到了哪一步、该说什么话。

它不只是 " 画 " 一个人,而是真正 " 理解 " 了这个人正在做什么。

Gemini Omni 搞懂了物理世界的关系

第二个王炸:一个对话框,搞定所有事。

写文章、生成图片、剪辑视频、记住上下文、执行复杂任务……以前你要换来换去打开四五个不同的工具,现在全部在同一个对话框里就能完成。Omni 把 Google 之前分散的能力,如文本、图像、视频、音频统统收拢到一个系统里,变成一个 " 什么都能做的生产力入口 "。

背后是一个很清晰的判断:未来的 AI Agent 要完成真实世界里的任务,就必须能看、能听、能说、能画、能剪。只会写字、写代码、分析数据的 Agent,注定是残缺的。

01 Coding 不是增长的全部

说到 AI Agent 的铺开,一位国内头部大厂的部门技术负责人,向陆玖商业评论反映了一个新苦恼。

推行 AI Coding 后,一位头部大厂技术负责人发现:交付快了,需求却更随意了,大量模糊、试错性质的需求涌入系统。

Uber 也有类似的情况:2026 年全年的 AI 工具预算,前四个月就耗尽,Uber 的 CFO 对此也很苦恼。

并非 AI Coding 本身不好,而是 AI 的价值早已溢出 " 写代码 ",渗透到需求分析、测试、运维、预算管理等全流程。正因如此,原本为编码准备的预算,才会被迅速消耗。

如果只盯着编码环节的降本增效,忽略需求质量前置和预算治理,就会陷入 " 快得停不下来 " 的窘境。所以 Anthropic 的 AI Coding 叙事虽火,但 To E(企业内部生产力)的天花板已经显现,市场也已 price in。

我们需要重新审视:AI 的故事远不止 coding。

还有 OpenAI,它最近的重心则是着急上市,把三大产品线彻底打碎重组,内部的大动荡,让 OpenAI 无法在短期内将 " 全模态实时交互 " 与 " 慢思考思维链 " 融合到一个统一架构中,两条路线最终只能各自为战、分道扬镳。

于是我们不得不问一个更根本的问题:我们当下讨论的 AI Agent,到底缺什么?缺的是一个能同时处理 " 看、听、说、写、画 " 的统一系统。

例如,你现在想做一个带字幕和背景音乐的短视频,可能得先用文本模型写脚本,切到图像模型生成封面,再打开视频工具剪辑,最后找个音乐模型配 BGM。四五个工具来回倒腾,中间但凡有一个环节不对,就得从头改。

所以,不管是 ToB(面向企业)、ToC(面向消费者)、ToG(面向政府),还是 ToE(面向企业内部员工),大家底层需要都是一套理解与生成文本、图像、视频、音频、音乐的模型系统。因为真实物理世界从来不和你分模态,一个任务往往天然地混合了多种信息形态,只有全模态的 Agent,才能真正跨越场景、适配角色、解决问题。

谷歌此前的架构是分开的:Veo 做视频,Gemini 做文本,Imagen 做图片,各管一摊。Omni 的发布标志着它正式转向统一多模态架构,在一个系统里完成所有生成和理解。这个转向本身,就是对 " 全模态到底重不重要 " 这个问题最直接的回答。

而在国内独立 AI 公司里,同时具备文本和多模态能力,且在各个模态都能做到领先的 pure-play 公司,也有一家:Minimax。

02 Pure Play 模型公司的魅力在哪里?

当然,全模态和技术路线说得再热闹,终究是纸上谈兵,最后绕不开一个问题:不赚钱的 AI,都是 " 耍流氓 "。

市场一直在等一个信号:到底什么时候能看到真金白银?

陆玖商业评论注意到,阿里财报里的一个数字很有价值:它的 MaaS 业务 ARR 已经超过 80 亿元人民币,预计 6 月到 100 亿,2026 年底到 300 亿,半年间涨了 3.75 倍。

AI 的回报时间真的到了,不是 " 快要到了 "。

但这里藏着一个反差。阿里能做到这个增速,靠的是它现成的家底:销售网络、客户关系、云基础设施。而 AI 原生公司(pure-play)没有这些存量优势,每一块钱收入都得靠模型本身的吸引力硬生生赢过来。

反过来想,如果阿里靠存量客户升级都能做到半年 3.75 倍增长,那一个纯粹靠模型差异化获客的公司,在同样的市场环境下,增速弹性会有多大?

要回答这个问题,得先回到需求本身,Token 消费在实打实地增加。以 Minimax 为例,旗下 M2 系列的 Token 用量,2026 年 2 月比 2025 年 12 月增长了 6 倍,而且每分钟 Token 处理量(TPM)保持着每周 10% 到 20% 的环比增速。

摩根士丹利的研报显示,Minimax 的 ARR 在 2026 年 2 月已经超过 1.5 亿美元,2026 年底有望达到 10 亿美元,与国际竞争对手处在同一量级。

再看具体的经济账。摩根士丹利在研报里点明了一个关键差异:Minimax 在单台 8xH800 推理服务器上,可实现每分钟约 1 美元营收,而相对应只有不到 0.3 美元的运行成本,营收规模是行业平均水平的 2 倍,单位经济效益大幅领先行业。

这种 " 做得更便宜,反而赚得更健康 " 的商业模式,反过来也呼应了一个更本质的逻辑,不是烧钱做增长,而是靠效率赢市场。

当前,Minimax 的毛利率已经从 2024 年的 12.2% 提升到 2025 年的 25.4%,而营销费用同比下降了 40.3%。这意味着用户和收入的增长,不再依赖广告投放驱动,而是工具使用带来的真实价值在自发性地裂变。

陆玖商业评论发现,就在昨天,被称为 " 龙虾之父 " 的 Peter Steinberger,晒出了自己一个月的 API Token 账单:高达 130 万美元。30 天总 Token 消耗量 6030 亿,请求量 760 万。有人直言:" 虾爹一个月烧 130 万美元太贵了,一般人和机构哪烧得起?"

不少人觉得 " 虾爹 " 成本太贵

所以,摩根士丹利还提到,它们对 Minimax 的 ARR 和毛利率(GPM)比同类上市公司更乐观,理由很简单:它在基础设施上的优势,最终会转化为更领先的用户体验,以及超出预期的 Token 消费。

摩根大通也提到,Minimax 在 ToB 和 ToC 两大市场 " 双管齐下 ",再加上它从创立初期就布局的全球化策略,为公司带来了同行里难得见到的经济灵活性。因为大多数 AI 创业公司要么只做 C 端应用(用户量涨得快但付费意愿低),要么只做 B 端 API(收入稳定但获客慢)。Minimax 同时跑通了两条路,意味着它的增长天花板比同行高出一大截。

讲完基本面,最后看催化剂。谷歌 Omni 的发布,让 " 全模态 " 这个方向被市场重新定价,而 Minimax 是国内最直接的映射公司。另外,Minimax 自己马上要发的 M3 系列,预计会大幅提升多模态理解能力;H3 也有望和 Seedance 一起,进入国产模型的第一梯队。

当一个市场从 " 谁有大流量 " 变成 " 谁有更好的模型 " 时,Pure Play 的弹性才刚刚开始释放。这种 " 行业 β 催化 + 公司 α 催化 " 一起出现的窗口,其实不常见。

03 为什么市场要给 " 全模态 " 重新定价?

过去一年,谷歌母公司 Alphabet 的股价大幅飙升了 140%。Plexo Capital 创始管理合伙人 Lo Toney 曾分析," 谷歌可能是目前最具备 AI 大规模商业变现潜力的公司,因为它几乎扼守了技术栈的每一个核心生态位。"

Omni 的发布,会让 " 全模态 " 这件事再次重新定价。

而如果投资者想找到下一个谷歌,同样押注全模态、同样做统一架构、但没有庞大云业务和广告大盘来分摊成本的 pure-play 公司,环顾全球,可能也只有 Minimax 了。

很多人不知道,Minimax 从一开始做的就是文本与多模态并行发展,而不是先做文本模型,再在外面 " 拼接 " 其他模态。这个思路,和谷歌 Omni 如出一辙。

这意味着,它的 LLM 预训练、视觉模型、视频生成等环节,大部分底层能力是共用的。一份研发投入砸下去,文本能力和多模态能力一起涨。这种效率优势,在每一代模型迭代中只会越拉越大,这也是为什么很多人对即将发布的下一代视频模型抱有期待,它可能开启国内原生多模态的新空间。

瑞银还认为,市场可能忽视了一个关键点:Minimax 不只是模型强," 工程层(harness)" 的能力才是它真正的护城河。模型是引擎,工程层是方向盘和刹车,光有引擎跑不快,还要有人会开车。

瑞银指出,Minimax 正在用 " 模型 + 工程层 " 两条腿走路,同时推动两个方向:创意场景(比如做视频、画画)和办公场景(比如写文档、处理任务)。

视频这边,瑞银预计 Hailuo 3 会在视频理解能力上甩开同行,同时通过更聪明的工程层设计,把使用门槛降下来,不只专业人士能用,普通小白也能轻松上手。文本这边,下一代 M3 模型会重点提升 AI Agent 自己规划、执行多步骤任务的能力,再配合工程层创新(如之前推出的 MaxHermes),把 AI 的应用范围从写代码扩展到自动处理文档、安排日程、跨工具协作等办公场景。

中信建投在这个观点上加了一层 buff:多模态训练产生的视觉理解能力,可以反哺文本模型,提升模型智能上限。

当然,这些都还只是过程。真正的机会在于:全模态会一步步走进日常生活场景,变成随时可以调用的基础智能资源。

想象一下,未来的 AI Agent 可以同时看懂你的设计草图、听懂语音指令、生成带字幕的演示视频、再配上背景音乐,全部在一个系统里完成,不用切换四五个工具。这个爆发量级,和现在单纯比代码生成能力、机器人聊天能力等,完全不是一个维度。

04 写在最后

如果说 ChatGPT 的出现是语言智能的启蒙时刻,Sora 的出现是视觉智能的觉醒时刻,那么 Gemini Omni 指向的,则是全模态智能的寒武纪大爆发时刻——各种能力不再各自为战,而是交织、融合、涌现,真正开始逼近真实世界的复杂度。

Google I/O 大会的热度今年明显更胜以往,或许不只是因为 Gemini Omni 的亮相,更是业界希望 Gemini 需要从模型能力转化为搜索、广告、购物和云业务的收入增长。这或许预示着,全模态的增长故事,已经走到了兑现的前夜?

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容