近日,来自微软亚洲研究院的前视觉计算组首席研究员胡瀚正式加入腾讯,担任多模态大模型研发的负责人。这一职位的变动标志着腾讯在AI领域的进一步布局,胡瀚接替了已离职的刘威,后者曾是腾讯混元大模型技术的关键负责人之一。
胡瀚的学术背景和科研成就使得他成为该领域的重要人物。2008年,胡瀚在清华大学获得本科学位,2014年获得博士学位。2016年12月,胡瀚加入微软亚洲研究院,专注于计算机视觉领域的前沿研究。他在该领域的研究成就颇为显著,其中最为人熟知的是他作为核心作者参与创作的论文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》。该论文介绍的Swin Transformer模型在计算机视觉任务中表现优异,超越了DeiT、ViT和EfficientNet等传统的主干网络(backbone),成为了视觉计算领域的标准架构之一。
Swin Transformer的出现,标志着计算机视觉领域的一个重要变革,它不仅在性能上优于以往的模型,还推动了视觉Transformer架构的广泛应用。其独特的Shifted Windows设计,使得Swin Transformer能够更高效地处理图像数据,从而替代了经典的卷积神经网络(CNN)架构,成为如今多种视觉任务中广泛使用的基础结构。
加入腾讯后,胡瀚将负责推动腾讯在多模态大模型领域的技术发展。多模态大模型作为当前AI技术的一个重要研究方向,涉及文本、图像、视频等多种数据形式的融合和处理。腾讯在这一领域已经取得了一定的进展,尤其是去年发布的混元Turbo大模型,采用了MoE(混合专家)架构。该架构大幅提升了推理效率,相较于上一代产品,推理速度提高了100%,同时推理成本降低了50%。这一进步使腾讯的混元大模型在处理效率和成本控制方面具有了更强的竞争力。
2023年12月,腾讯宣布其混元大模型的开源,并且新增了文生视频功能。该模型支持中英文双语输入,参数量达到130亿,进一步展示了腾讯在多模态大模型领域的研发实力和开放态度。随着胡瀚的加入,腾讯在AI领域的技术创新和研发能力有望得到进一步提升。