【太平洋科技快讯】3 月 19 日消息,小米今日正式发布三款面向 Agent 时代的大模型,分别是旗舰基座模型 MiMo-V2-Pro、全模态基座模型 MiMo-V2-Omni,以及语音合成大模型 MiMo-V2-TTS,全面升级其 AI 能力矩阵。

全模态模型 MiMo-V2-Omni 则统一了文本、视觉与语音的感知与行动能力,能执行跨模态理解、浏览器操控等复杂任务。其匿名测试版本「Healer Alpha」曾在 OpenRouter 平台调用量攀升平台前列,并在 OpenClaw 测评榜单上获得均分第一,多模态感知能力对标国际顶尖水平。
同期发布的 MiMo-V2-TTS 语音合成模型基于自研 Audio Tokenizer 和多码本语音 - 文本联合建模架构,经过上亿小时语音数据训练与多维度强化学习,支持从整体风格到局部情绪的精细控制,并能实现方言、角色扮演及歌声合成。该模型旨在为智能体赋予富有情感和表现力的 " 声音 ",让 AI 交互更具温度。
目前,三款模型均已开放 API 服务,并已在小米及金山办公旗下多款产品中落地应用。
