继先前推出参数规模在120亿组的Mistral NeMo 12B小型自然语言模型后,NVIDIA再次宣布推出参数规模更小、精准度却更高的小型自然语言模型Mistral-NeMo-Minitron 8B,参数规模控制在80亿组,可用于小型工作站,或是快速布署于各个边缘运算节点,同时也能用在数据中心及云端运算丛集。
NVIDIA应用深度学习研究部门副总裁Bryan Catanzaro表示:我们将两种优化人工智能的方法加在一起。 这包括以『剪枝』 (pruning)方式,将原本Mistral NeMo 12B决策分辨能力较弱的运算部分去除,使其参数进一步缩减,另外藉由「蒸馏』 (distillation)方式提升模型运算精准度,让调整后的Mistral-NeMo-Minitron 8B能以更高效率运作,同时不影响其精准度表现,更可精简模型运算成本。
目前开发人员可以通过包装成有着标准应用程式接口(API)的NVIDIA NIM微服务使用Mistral-NeMo-Minitron8B模型资源,或是透过Hugging Face下载,并且能将其部署应用在更多以GPU加速运算系统上使用。
相比Mistral NeMo 12B,此次推出的Mistral-NeMo-Minitron 8B将能以更小规模用在多元运算节点,让自动生成式人工智能技术能在更多运算载具上运作,同时维持相同人工智能执行效能,甚至更进一步提高其运算精准度。
生成式人工智能(AI)的开发者通常得面临要取舍模型大小还是精确度的难题。 不过 NVIDIA 发表的全新语言模型倒是兼具两者之长,这个模型体积小巧,又有着最先进的精确度。