中国智驾赛道过去两年陷入了一种奇特的胶着。第一梯队的面孔趋于稳定,但彼此间的差距在收窄。用户端感知到的功能差异越来越小,无图 NOA、端到端、VLA,各家在同一个关键词池里反复对齐,发布会 DEMO 也越来越难分辨谁是谁。
于是一个关键变量正在走到台前:芯片。
继续用相似的英伟达芯片跑相近的模型架构,并不意味着产品体验一定趋同,数据、模型和工程能力依然可以拉开很大差距。但当模型规模持续膨胀、推理频率不断提高,仅靠供应商提供的通用平台,越来越难形成底层的持续差异化。对试图争夺下一阶段技术主导权的头部玩家而言,自研芯片正在成为越来越难绕开的选择。
但发布自研芯片本身不是关键,更重要的是,芯片能力是否够强,以及是否可以量产上车、给用户实际可感知的更好体验。
不久前的 Livis Day 发布会,理想汽车再次把外界的目光汇聚到马赫 M100 上。这是它拿出的全球首款量产上车的动态数据流 AI 芯片,单芯片算力达到 1280TOPS,并且已经搭载到全新理想 L9 上,直接跑通了城市 NOA。其架构论文还入选国际计算机体系结构研讨会 ISCA 2026 工业分区,成为该会议今年工业分区的一篇汽车 AI 芯片论文。
发布会后,理想汽车 CTO 谢炎与基座模型负责人詹锟展开了一场深入交流,详细拆解了马赫 M100 的立项逻辑、数据流架构的判断依据、组织协作机制,以及智能辅助驾驶下一阶段的技术路线。当自研芯片定义逐渐成为头部玩家的共同方向,理想试图用一次架构层面的重构,为芯片和模型打开更高的能力上限。
自研芯片在车企圈子里不新鲜。过去几年,多家头部车企相继发布了自己的芯片计划,PPT 上的参数竞相攀升。但谢炎表示,宣布做芯片和真正用起来,距离还很远。" 做一颗芯片和做一颗领先的芯片,难度又是不一样的。"
而理想的评价标尺非常简单——这颗芯片能不能跑通最先进的模型?能不能部署到所有车上?能不能持续迭代出第二代、第三代?" 有些公司为了证明能用,只用了一款车型,出货量只有几千辆,其他车还是用外购芯片,说明这颗芯片并没有帮它解决真正的问题。"
马赫 M100 从 2022 年立项到 2026 年量产上车,用了不到四年。按照谢炎的说法,行业同类全新架构芯片的开发周期通常更长。速度背后是一套组织设计:理想让芯片、软件、模型和智驾团队围绕同一个目标高度协同。团队在组织上仍然分开,但在具体项目中以 " 一团篝火式 " 的方式共事,硬件、软件和模型的人围绕同一目标坐到一起。
谢炎本人横跨操作系统、芯片架构、应用层与 AI 的多重背景,在这套机制中扮演了关键的衔接角色。能同时理解芯片设计、编译器、操作系统和 AI 模型的技术负责人,在汽车行业并不多见。
至于成本,谢炎算的账不是颗数逻辑,而是晶圆面积逻辑:一辆 Livis 搭载两颗马赫 M100,芯片面积合计约 800 平方毫米;一部高端手机芯片约 100 平方毫米。按照这一口径,一辆车消耗的晶圆面积相当于约 8 部旗舰手机。大几十万辆的年规模铺开,晶圆面积形成的规模效应足以分摊相当一部分研发投入。" 我们在马赫 M100 立项时算过,做这颗芯片不会让公司效益变差,而是会变好。"

不过真正驱动这笔投入的,仍然是一个更深层的技术判断:当一部分创新需要芯片与模型联合设计才能实现,没有芯片定义权,就会失去这类创新的机会。
谢炎援引英伟达的演进路径来说明这一点。这家巨头过去主要提供芯片,如今已经将系统定义能力延伸至封装、机架、散热和互联,并与供应链伙伴共同构建 Vera Rubin 这样的完整平台。" 如果分成多家公司做,效率极低,甚至是不可能的。"
技术处于平台期,分工可以高度细化;技术处于高速发展期,过度细化的分工可能成为障碍。这是理想选择垂直整合的底层逻辑。
找一条新路打开性能上限
马赫 M100 最核心的技术决策,是在 AI 计算单元中采用动态数据流架构。
M100 整颗 SoC 仍然包含 ARM CPU、内存子系统和标准 I/O 等传统模块。真正与主流智驾芯片拉开差异的,是其自研 NPU。M100 论文将它描述为一套数据流并行架构,由编译器和硬件共同编排计算,以及数据在时间和空间上的移动。
传统的冯 · 诺依曼式处理器以指令流组织计算,为了兼顾通用性和人类编程习惯,需要缓存、分支预测、乱序执行等复杂机制。对于 CPU 而言,这些设计保证了它可以灵活处理各种任务;面对结构相对固定、并行度极高的 AI 模型时,一部分硬件资源也会被用来维持这套通用抽象。

这条路并非理想首创。数据流计算在学术界已有数十年历史,也曾被不同 AI 芯片公司探索。但它一直没有取代通用计算架构,工业界尤其缺少可直接照搬的车规级量产方案。
为什么非走这条缺少成熟样本的路?谢炎的回答直指竞争现实:" 英伟达比你早启动几十年,积累比你深,资源比你多几个数量级。就像跟博尔特在 100 米赛道上,他比你早跑两秒,你不可能超过。唯一的机会就是跑另外一条路。"
除了架构,马赫 M100 的编译器也值得关注。
传统 CPU 和 GPU 编译器经过数十年发展,理论框架和工具生态已经相对成熟,后来者可以在前人体系上做差异化。数据流编译器面临的却是另一类问题:超大规模并行调度,类似超级计算机大量核心之间的通信与协作,需要同时安排计算发生的时间、空间位置和数据移动,没有现成教科书可以直接套用。
理想的选择是让编译器与芯片同步开发。芯片设计阶段,编译器团队就已启动;流片前,大量模型已经跑通。但谢炎强调," 跑通跟跑到最好之间,距离非常大 "。
去年年中,团队重做了一版编译器,目标是把硬件性能进一步逼出来。按照理想内部测试,马赫 M100 运行马赫 VLA 模型时,性能已经达到其所比较 Thor-U 方案的 3 倍。" 我们觉得依然有潜力可挖。"
这一比较目前还缺少完整公开的测试条件。Thor 平台本身也存在不同产品形态,英伟达公开的单颗 DRIVE AGX Thor 峰值算力最高为 1000 INT8 TOPS,峰值数字与真实模型性能并不能直接互换。
谢炎对此态度开放:理想可以提供 Benchmark,也愿意接受第三方测试。" 我们也跟一个第三方测试机构聊过,机构反馈说其他家都不愿意拿出来做比较。"
眼下,M100 的架构论文入选 ISCA 2026,意味着这一技术路线通过了计算机体系结构顶级会议的同行评审,为外界理解其架构提供了一份更完整的技术材料。
追赶 FSD 是一场系统工程
理想发布会公布的 OTA 排期相当紧凑:7 月智驾效率提升 30%,9 月全场景自主倒车,12 月端到端反应速度达到 0.2 秒,比普通人类驾驶员快 56%。四季度,马赫 VLA 模型能力将对齐全球顶尖水平。
詹锟把追赶 FSD 拆为两层。
第一层是基础体验——安全感、效率、舒适度能否达到同等水平。他的判断是,通过评价体系打磨与芯片性能持续释放,可以做到。第二层是能力——礼让特殊车辆、极窄通行的感知精准度、交警手势识别。这些能力并非其他系统从未展示过,但在詹锟看来,FSD 已经把它们做成了一套相对连贯、可泛化的系统能力。
差距的根源不只在算法,也在数据与系统架构。" 它怎么就能找到那么多倒车数据?是采集的还是合成的?怎么把这些坑坑洼洼的信息传回去?这在架构上有很好的设计。" 理想正在朝这个方向尝试,已有初步结果。
而两层拆解指向同一个结论:追赶 FSD,不能只复刻它今天呈现出来的功能,还要补上功能背后的数据和系统能力。
特斯拉的长尾能力不是靠算法团队多调几轮参数复现的,背后是数据发现、回传、筛选、训练与车端部署协同运转的结果。这也解释了垂直整合为何必要——自研芯片不会自动产生倒车或手势识别能力,但它允许理想围绕模型的需要重新分配计算、存储和带宽,减少软硬件协同中的硬约束。

詹锟将其置于一条自然演进脉络中:BEV 阶段算力有限,高度估计做不稠密;OCC 阶段把稀疏空间表征逐步加密;3D ViT 则试图构建更稠密的三维表征,不依赖预设栅格和类别,让不同物体都能投射到三维空间,同时保留外观、纹理与属性,支持动静分离追踪。这套方案一开始就基于马赫 M100 验证,而非在英伟达平台上开发完成后再迁移。其价值,是用纯视觉去逼近激光雷达级别的空间深度和物体精细度,同时保留颜色、纹理和语义等主动传感器难以提供的信息。
帧率是另一条硬杠杆。在理想当前的传感器配置下,激光雷达通常以 10Hz 左右输出,视觉输入可以进一步提升到 30Hz 以上,更高频率能帮助系统更快捕捉细小变化。这正是下半年 OTA 要逐步释放的能力方向。
数据策略则构成了整套追赶逻辑的底层。詹锟将其归纳为两层:数据量必须足够大才能覆盖 Corner Case,理想自理想 ONE 时代便开始建设回传能力,当前回传数据的质量据其称已达到专业 L4 自动驾驶公司采集车队的水平;更具挑战的是行为质量——众包车队的驾驶习惯千差万别,理想的解法是事后回溯,依据加速度稳定性、变道角度合理性等指标筛选高质量行为,再送入训练集。
对 Scaling Law 的边际递减,詹锟没有回避:" 只要往 100 分去够,一定是个对数曲线,不可能线性增长,哪家公司做 AI 都不是这样。" 但他相信数据质量的提升能在一定程度上对抗这条曲线。
回到马赫 M100 诞生之前,谢炎曾对李想说,他最担心的不是做不出来,而是做出来了却不领先。
现在这颗芯片已经走到了行业前列。接下来要看的是,理想能不能把这份领先转化为用户可持续感知的体验。下半年的三个 OTA 节点,将给出答案。
