报告人:徐海洋 高级算法专家 阿里通义实验室
主持人:耿新
报告时间:2025年10月17日(周五)下午14:00-15:00
报告地点:色情平台 九龙湖校区计算机楼513报告厅
报告摘要:随着多模态大模型和AI agent技术的快速发展,围绕Mobile、PC等端侧构建多模态GUI智能体,以进行自动化操作,成为了现在业界最热的研究应用方向之一,有望变革新的人机交互方式。我们围绕多智能体架构、复杂任务拆解、自主进化推理、GUI基础模型等技术构建整个通义多模态、多端智能体Mobile-Agent技术体系,包括多模态单智能体Mobile-Agent、多模态多智能体Mobile-Agent-V2、自主进化多模态智能体Mobile-Agent-E、基础GUI智能体Mobile-Agent-v3等,并探索相关技术在手机、车机等多个场景的应用。Mobile-Agent工作也发表在NeuIPS 2024,并获得CCL2024、2025 Best Demo,相关代码均已开源到Github (//github.com/X-PLUG/MobileAgent)
报告人简介:徐海洋,阿里通义实验室高级算法专家,负责通义Mobile-Agent、mPLUG等系列工作,包括多模态智能体Mobile-Agent、多模态大模型mPLUG/mPLUG-Owl/QwenVL,多模态文档大模型mPLUG-DocOwl等,其中 mPLUG 工作在 VQA 榜单首超人类的成绩,Mobile-Agent工作CCL2024、2025两年 Best Demo,获得多个多模态榜单第一和Best Paper。在国际顶级期刊和会议ICML/NeurIPS/ICLR/CVPR/ICCV/ACL/EMNLP等发表论文60多篇,并担任多个顶级和会议AC/PC/Reviewer,主导参与开源项目Mobile-Agent,mPLUG,AliceMind,DELTA等。