银河通用发布GraspVLA 开创具身智能领域的新篇章

来源:网界网 | 2025-01-10 15:40:58

  1月9日,银河通用宣布与北京智源人工智能研究院(BAAI)、北京大学及香港大学的研究人员联合发布了首个全面泛化的端到端具身抓取基础大模型——GraspVLA。此举标志着在具身智能领域的一次重要突破,为未来智能机器人在物理世界中的感知、学习和互动能力奠定了基础。

  “具身智能”是指将人工智能技术与物理实体结合,使其不仅具备感知和学习能力,还能与动态环境进行实时互动。GraspVLA便是这一理念的体现,它的问世意味着人工智能从纯粹的软件世界逐步向能够理解和适应现实世界的物理实体扩展。

  GraspVLA模型的训练分为两大阶段:预训练和后训练。在预训练阶段,GraspVLA使用了前所未有的大数据量,涵盖了十亿帧“视觉-语言-动作”对。这些合成数据的使用确保了模型能够掌握基础的抓取能力,并具备了泛化的闭环抓取能力,使其成为一个强大的基础大模型。

  该模型的创新之处在于其极强的泛化能力。通过预训练后,GraspVLA能够在没有样本的情况下,直接通过Sim2Real技术将模型从模拟环境应用到现实世界,处理那些未曾见过的、复杂多变的场景和物体。这意味着,它不仅能完成基础的抓取任务,还能应对各种复杂且动态的真实环境需求。对于具有特定需求的应用,GraspVLA通过后训练,利用少量样本便能够迅速迁移并定制出符合需求的专业技能。

  官方介绍中,GraspVLA被定义为一个全面的基础模型,必须满足七大泛化“金标准”。这些标准包括光照、背景、平面位置、空间高度、动作策略、动态干扰和物体类别等多个维度的泛化能力,旨在确保模型能够在不同环境条件下表现出稳定的抓取性能。

相关阅读

每日精选