Meta近期说明以开放、平等精神投入人工智能发展超过10年,并且在基础人工智能研究团队FAIR (Fundamental AI Research)成立10周年之际,宣布推出新一代人工智能模型与数据集,分别推出结合第一人称及外部视角,让人工智能具备影像理解能力的Ego-Exo4D技术,以及可自动生成语音、 音效内容的Voicebox,另外也推出翻译模型Seamless Communication。
今年6月宣布推出的人工智能模型Voicebox,则可通过学习样本、语音风格,藉由自动生成方式产生语音服务使用声音,让使用者能更直觉、简单打造客制化音频资料。
至于以SeamlessM4T技术为基础,新推出的翻译模型Seamless Communication,则在跨语言表现上更忠实呈现原意,并且能达到同步翻译的效果,更支持以声音语调、抑扬顿挫或停顿点诠释语意情绪,目前支持英文、西班牙语、德文、法文、意大利文及中文,并且支持更即时、高效率即时翻译效果。
在过去10年发展中,Meta表示推出可识别图像中个别单一物体的Segment Anything技术,以及可在不仰赖英文基础资料的前提下,能翻译100种语言的NLLB (No Language Left Behind)模型,近期更将文字转语音及语音转文本 技术扩展至近1000种语言,并且以开源形式提供使用的可预先训练大型语言模型Llama,更在后续推出可免费用于研究及商用的Llama 2之后,Meta强调将持续以开放、平等精神投入人工智能发展。
而在结合第一人称及外部视角,让人工智能具备影像理解能力的Ego-Exo4D技术里,Meta通过结合两种视角方式,让人工智能能搜集更完整环境资讯,并且能结合智能眼镜装置,让虚拟助理引导用户完成学习新技能、导航等任务。