发布网友
共1个回答
热心网友
代季峰老师于2023年5月4日参与了由 @OpenMMLab 开源社区与 @北京超级云计算中心 共同举办的直播栏目【AI 奇妙夜】,分享了超大规模视觉通用模型领域的最新研究进展。直播视频回放中,代老师详细解析了研究成果,四大成果的开源代码也同步提供,内容丰富且实用,欢迎观看。
直播视频回放
代季峰老师简介
代季峰,清华大学电子工程系副教授,博士生导师,OpenGVLab核心成员。2009年及2014年于清华大学自动化系分别获得工学学士与博士学位,博士导师为周杰教授。在微软亚洲研究院视觉组工作多年,担任首席研究员与研究经理,并于商汤科技研究院担任执行研究总监。2022年7月全职加入清华大学电子工程系。研究领域涵盖计算机视觉与深度学习,发表国际期刊与会议论文50余篇,论文总引用数超过2.6万次,多次成为物体识别领域的里程碑成果,被编入一流大学的视觉课程讲义,并成为PyTorch深度学习框架的标准算子。
研究内容
通用感知模型正由NLP领域扩展至更多模态,通过融合图像、声音、语言等不同模态信息,预训练模型实现了从单一NLP、CV到音视频、语言文字、文本图像等多模态、跨模态模型的转变。
代老师指出,在通用感知模型发展中面临多项挑战与难题,包括网络参数量巨大、训练流程复杂、实验成本高与工程挑战等。
四个研究成果
成果一:多模态多任务统一预训练,通过“最大化互信息统一预训练”方法,实现多模态多任务统一预训练,简化训练流程,提升模型的鲁棒性与训练效率。
成果二:超大规模图像主干网络,代老师团队提出InternImage大模型,采用可变形卷积技术,实现图像领域标杆任务的最优性能,超越微软、Meta、谷歌等机构的视觉大模型。
成果三:Uni-Perceiver通用视觉任务表征,该方法将数十种视觉任务统一在一个表征框架下,实现任务级别的泛化目标,Uni-Perceiver v2在物体检测、实例分割等视觉核心问题上取得与专有模型相当的性能。
成果四:BEV 环视自动驾驶感知,BEVFormer提出了一种融合多视角相机与时序特征的端到端框架,适用于多种自动驾驶感知任务,具有鲁棒性,入选“Top-10 most influential papers of ECCV 2022”,并在Waymo纯视觉3D检测挑战赛中获得第一。
代码与论文
相关研究成果的代码与论文已公开,具体包括“Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information”(CVPR 2023)、“InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions”(CVPR 2023)、“Uni-perceiver: Pre-training unified architecture for generic perception for zero-shot and few-shot tasks”(CVPR 2022)、“BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers”(ECCV 2022)等。