IT之家 9 月 3 日音信,上海东说念主工智能本质室(上海 AI 本质室)当天晓谕开源通用多模态大模子书生 万象 3.5(InternVL3.5),其推聪慧力、部署效果与通用智力全面升级。
InternVL3.5 本次开源有 9 种尺寸的模子,参数涵盖 10 亿-2410 亿,可称心各场景需求。其中,旗舰模子 InternVL3.5-241B-A28B 在多学科推理基准 MMMU 中获 77.7 分,为开源模子中最高分;多模态通用感知智力超越 GPT-5,文本智力领跑主流开源多模态大模子。
与 InternVL3.0 比拟,InternVL3.5 在图形用户界面(GUI)智能体、具身空间感知、矢量图像调处与生成等多种特质任务上达成权贵晋升。
本次升级,上海 AI 本质室商议团队重心强化了 InternVL3.5 面向骨子欺骗的智能体与文本想考智力,在 GUI 交互、具身空间推理和矢量图形经管等多个要道场景达成从“调处”到“活动”的越过,并赢得多项评考研证。
GUI 交互部分,InternVL3.5 在 ScreenSpot-v2 元素定位任务以 92.9 分超越同类模子,同期守旧 Windows / Ubuntu 自动化操作,并在 WindowsAgentArena 任务大幅率先 Claude-3.7-Sonnet。
在具身智能体测试中,InternVL3.5 发扬出调处物理空间干系并谋略导航线径的智力,在 VSI-Bench 以 69.5 分超越 Gemini-2.5-Pro。
在矢量图形调处与生成方面,InternVL3.5 在 SGP-Bench 以 70.7 分刷新开源(300109)记录,生成任务 FID 值也优于 GPT-4o 和 Claude-3.7-Sonnet。
具体来看,InternVL3.5 可跨 Windows、Mac、Ubuntu、Android 等多个平台,识别界面元素并自主实行鼠标、键盘操作,达陋习复已删除文献、导出 PDF、邮件添加附件等任务的自动化。
InternVL3.5 具备更强的 grounding 智力,不错泛化到全新的复杂深广小样本的具身场景,谐和握取算法,守旧可泛化的长程物体握取操作,助力机器东说念主更高效地完成物品识别、旅途谋略与物理交互。
算作上海 AI 本质室书生大模子体系的垂危构成部分欧洲杯体育,InternVL 聚焦视觉模子时间,InternVL 全系列全网下载量已冲突 2300 万次