VALSE Webinar 26-12期总第417期细粒度多模态大模型

新浪财经

2026-05-15 21:11 ·北京 ·优质财经领域创作者

来源：市场资讯

（来源：VALSE）

报告时间

2026年5月20日 (星期三)

晚上20:00 (北京时间)

主题

细粒度多模态大模型

主持人

魏秀参 (东南大学)

直播地址

https://live.bilibili.com/22300737

报告嘉宾：彭宇新 (北京大学)

报告题目：细粒度多模态大模型

打开网易新闻查看精彩图片

报告嘉宾：彭宇新 (北京大学)

报告时间：2026年5月20日 (星期三)晚上20:00 (北京时间)

报告题目：细粒度多模态大模型

报告人简介：

彭宇新，北京大学二级教授、博雅特聘教授，IEEE/CCF/CAAI/CIE/CSIG Fellow，2019年国家杰青，2025年国家杰青延续资助，2019年国家万人领军人才，2018年科技部中青年科技创新领军人才，863项目首席专家，国家重点研发计划“社会治理与智慧社会科技支撑 (平安中国)”重点专项总体专家组专家，中国工程院“人工智能2.0”规划专家委员会专家，中国人工智能产业创新联盟专家委员会主任，中国图象图形学学会副理事长，北京图象图形学学会副理事长。主要研究方向为多媒体分析、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步奖一等奖，2008年获北京大学宝钢奖教金优秀奖，2017年获北京大学教学优秀奖。主持了863、国家自然基金重点 (2项)、北京自然基金联合基金重点、发改委专项等40多个项目。发表TPAMI、IJCV、CVPR、NeurIPS、ICML等ACM/IEEE Trans.和CCF A类论文近200篇，获最佳论文奖2次。参加10届 (10年)由美国国家标准与技术研究院 (NIST)举办的国际评测TRECVID视频搜索比赛，均获第一名，参赛队伍包括斯坦福大学、卡内基梅隆大学、牛津大学等。成果应用于国家网信办、公安部、国家广播电视总局等重要单位以及华为、腾讯、快手、蔚来、美团、中国电信、中国铁塔等头部企业。担任IEEE TCSVT高级领域编委、IEEE TMM等期刊编委，培养博士生获中国计算机学会、中国电子学会等优博。

个人主页：

mipl.pku.edu.cn

报告摘要：

多模态大模型在通用任务上表现出色，但缺乏细粒度感知能力，如何做到又广 (开域泛化能力)又深 (细粒度感知能力)，是多模态大模型亟需解决的关键问题。本报告将从类别、空间、时间三个感知维度阐释“细粒度多模态大模型”的定义，介绍近年来的主要研究进展，包括细粒度图像分类大模型、细粒度空间推理与占用预测、细粒度美学理解、细粒度运动分析等方法与技术，同时深入分析其优缺点和应用场景，最后将对细粒度多模态大模型的未来发展趋势进行展望。

打开网易新闻查看精彩图片

主持人：魏秀参 (东南大学)

主持人简介：

魏秀参，东南大学青年首席教授、博士生导师，国家基金委青年科学基金项目B类 (原优青)获得者、国家重点研发计划首席青年科学家、江苏省杰青。主要从事计算机视觉、机器学习和机器人方面研究，目前担任IEEE TPAMI/TIP/TMM/TCSVT编委，CVPR/ICCV/AAAI/IJCAI等领域主席，并任中国图像图形学会 (CSIG)理事、Fundamental Research/电子学报 (英文版)青年编委、CSIG青托俱乐部主席、CSIG青工委副秘书长等。曾入选CSIG青年科学家奖、吴文俊人工智能优秀青年奖等。主编教材《解析深度学习》已重印8次并入选“十四五”国家重点出版物出版规划、中国计算机学会推荐教材和省部级重点教材等。

特别鸣谢本次Webinar主要组织者：

主办AC：魏秀参 (东南大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网更新。

看到这了，确定不关注下吗？关注下再走吧～

特别声明：本文为网易自媒体平台“网易号”作者上传并发布，仅代表该作者观点。网易仅提供信息发布平台。