报告摘要:面向端侧的大模型轻量化技术旨在解决大规模深度模型在资源受限环境下部署与推理效率低的问题。通过结构重设计、模型剪枝、量化、蒸馏等技术手段,在保持模型精度的同时,显著压缩参数规模与计算开销,从而实现大模型在移动终端、智能设备、边缘计算平台等端侧场景的高效运行。该方向在智能手机、自动驾驶、智能制造及安防监控等领域具有广泛应用价值。本报告将系统介绍当前主流的大模型轻量化策略及其在端侧部署中的关键挑战与最新进展。
讲者简介:张宇伦,上海交通大学,任长聘教轨副教授,入选国家海外高层次青年人才。主要研究方向是计算机视觉和机器学习,具体包括图像/视频复原与合成,模型压缩,计算成像,多模态计算,大语言模型等。在计算机视觉,机器学习,多媒体,人工智能等领域的顶级国际期刊和会议上发表学术论文100余篇。论文Google学术引用26000余次,一作论文单篇最高引用6100余次。获得2015年IEEE VCIP最佳学生论文奖,2019年IEEE ICCV RLQ Workshop最佳论文奖,全球AI华人新星百强(2021年),连续多年入选斯坦福“全球前2%顶尖科学家”榜单(2021-2024年),入选2024年爱思唯尔“中国高被引学者”。近年来担任顶级会议CVPR, ICCV, ECCV, ICLR, NeurIPS, ICML, ACM MM, IJCAI领域主席。