关于ZAKER Skills 合作
新浪财经 54分钟前

阿里发布 Qwen3.7-Plus:文本、视觉能力大幅提升,可一键复刻手机 App

来源:新浪科技

新浪科技讯 6 月 2 日上午消息,阿里巴巴发布千问 3.7 系列多模态大模型 Qwen3.7-Plus,宣布实现多模态混合智能体新突破:文本和视觉能力均大幅提升,不仅能看懂图片和视频,还能深度推理、自我编程、调用工具、验证测试并自主迭代,将 " 看、想、写、做、验 " 整合进统一的智能体工作流,轻松完成一键复刻手机 App 应用、桌面端专业软件等复杂长程任务。

目前,Qwen3.7-Plus 已上线阿里云百炼,对外提供 API 服务。据悉,在全球视觉大模型榜单 Vision Arena 中,Qwen3.7-Plus 据全球前五、国内第一。

据悉,此次发布的 Qwen3.7-Plus 是千问 3.7 系列的最新模型,性能较上代 Qwen3.6-Plus 进步显著,纯文本能力甚至可接近旗舰模型 Qwen3.7-Max 的水平,涌现出 Plus 级别模型最强的编程、Agent、推理及通用能力。在编程实测 Terminal Bench 2.0-Terminus、科学问题编程 SciCode 等评测中,新模型较 Qwen3.6-Plus 大幅提升约 9 分,媲美 Claude-Opus-4.6Max;在评估通用 Agent 能力的 Skillbench 评测中,大幅提升 10.2 分,展现出强大的智能体能力;在数学推理 Apex 评测中,Qwen3.7-Plus 取得了近 3 倍于上代模型的性能评分表现。

变得更聪明的 Qwen3.7-Plus,还 " 睁开了眼睛 ",并基于智能体的实际需求系统性增强了视觉能力:在纯视觉推理 BabyVision 评测中,Qwen3.7-Plus 得分从上代的 37.4 大幅提升至 64.7,超过了 Gemini3.1-Pro,实现了泛化能力的飞跃;在搜索增强知识问答的 SimpleVQA、MMSearchPlus、MMBC 等权威评测中,新模型较 Qwen3.6-Plus 性能得分提升最高 2 倍多,表现大多优于 Claude-Opus-4.6 Max、Gemini3.1-Pro,解决开放问题会更可靠、更准确。

文本与视觉能力的双重提升,也激发出 Qwen3.7-Plus 崭新的多模态混合智能体能力,可自主闭环执行复杂任务。比如,Qwen3.7-Plus 基于强大的 GUI 感知能力,模拟人与示例股票应用自主交互,并据此自动生成代码;同时,千问 3.7 还调用工具获取实时数据,自主执行和通过了 10 项核心测试,一比一复刻了这一桌面端的复杂应用。(文猛)

相关标签

相关阅读

最新评论

没有更多评论了
新浪财经

新浪财经

新浪财经提供7*24小时财经资讯及全球金融市场报价;覆盖股票、债券、基金、期货、信托、理财、管理等多种面向个人和企业的服务。

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容