

《实施方案》的总体目标是,到 2028 年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设工具和标准。
具体措施包括:围绕行业高质量数据集供给、流通、应用等关键环节,部署六大专项行动,提出面向人工智能应用需求,持续推进文本、图像、音视频等多模态高质量数据集建设;聚焦智能体、具身智能和世界模型等重点方向,要求加快推进数据集建设;引导具备条件的地区因地制宜开展数据标注创新试验区建设。

高质量数据集的严重匮乏,已成为制约物理 AI 及其衍生的智能体、具身智能和世界模型等前沿领域发展的核心瓶颈。
在 2026 年世界智能产业博览会上,国家数据局局长刘烈宏明确指出:"高质量数据集是具身智能‘感知 - 决策 - 执行’的重要基础。" 据《科创板日报》此前报道,具身智能领域多个投资者表示,当下具身发展的核心瓶颈就是数据。高质量数据的规模化生产能力,就是这个赛道的 " 石油 "," 具身数据有着特殊的技术要求,现有民用数据无法复用。例如抓取水杯,机器人无法自主判断握持力度,极易滑落。高精度、第一视角、多维度的具身数据极度稀缺。"
上述判断与 "AI 教母 " 李飞飞的观点高度契合。从当年的 ImageNet 到如今的 WorldLabs,李飞飞始终强调数据集的大小决定了智能的程度,她曾在访谈中明确表示,现在,数据可能又成为发展世界模型一个特别特别难的问题," 数据与算法平等重要。"
在 2026 年 2 月思科 AI 峰会上,李飞飞直言,物理世界 AI 发展滞后于语言模型,核心瓶颈在于数据信噪比——文本数据语义清晰、易获取,而物理世界的像素、体素数据充满噪声,且 3D、4D 维度的高质量数据极度稀缺。在接受 a16z 的访谈中,她进一步指出,AI 进步的核心限制从来不是算力或算法,而是高质量、多模态、符合物理一致性的数据,这一结论从 ImageNet 时代延续至今,在世界模型研发阶段更为凸显。
今年以来,高质量数据集领域新动向颇多。
4 月 15 日,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案(征求意见稿)》,向社会公开征求意见。工业和信息化部、国家数据局近期联合印发《关于联合实施 2026 年 " 模数共振 " 行动的通知》,推动人工智能模型与数据资源协同互促、同频共振,并提出到 2026 年底,基本形成 " 数据 - 模型 - 场景应用 " 良性互促的循环,推动人工智能高水平赋能新型工业化。
行业平台层面,4 月 29 日,国家数据集管理服务平台发布并启动试运行,提供覆盖数据集全生命周期的公共服务能力。截至 5 月 31 日,已认证机构 516 家,发布数据集 1350 个,覆盖农业、工业制造、交通、文旅等重点领域。
截至今年一季度,全国已建成高质量数据集超过 11.6 万个,总体量超过 960PB。截至今年 3 月,我国日均词元调用量已超过 140 万亿。