苹果公布两组小规模开源人工智能模型 直追Meta、谷歌的同级产品

来源:网界网 | 2024-07-22 15:55:50

  苹果机器学习研究团队科学家Vaishaal Shankar稍早于“X”表示,分别推出两组小规模的开源人工智能模型,均隶属于“DCLM” 发展项目,分别对应69亿组参数及14亿组参数,强调能与Mistral AI的70亿组参数规模人工智能模型,以及Meta提出的Llama 3、Google的Gemma、阿里云的开源模型Qwen2直接抗衡。

  同时,Vaishaal Shankar更标榜“DCLM”为真正形式上的开源模型,其中69亿组参数版本是基于OpenLM框架,以2.5兆个词元 (token)进行训练,前后文长度各可对应2K组词符,在大规模、多任务的语言理解 (MMLU)测试达63.7%, 超过Mistral-7B-v0.3的62.7%表现,并且贴近Meta Llama3 8B的66.2%、Google Gemma的64.3%),以及微软Phi-3的69.9%,另外也以更少算力完成相关测试。

  而在14亿组版本,苹果则是与Toyota研究团队共同训练,并且以2.6兆组词符数量进行训练,在大规模、多任务的语言理解测试达41.9%,超过微软Phi-1.5B的35.90%。

  另外,苹果方面也在69亿组参数规模的人工智能模型基础下,将前后文长度支持至8K组词符,在在大规模、多任务的语言理解的表现基本维持不变,意味相比语言模型框架设计,用于训练的数据集设计将变得更加重要。

  目前“DCLM”计划以开源形式与业界研究人员合作,目前合作对象包含华盛顿大学、特拉维夫大学与Toyota研究中心,但目前在“DCLM”计划研究项目并不会用于苹果市售产品,避免引发不必要的争议,目前作为研究为主。

相关阅读

每日精选