Meta 推出了 Llama 3.1 405B AI 免版税使用。750 GB、4050 亿参数的大型语言模型 (LLM) 是有史以来最大的大型语言模型之一,使其能够凭借其扩展的 128K 令牌输入窗口与 Anthropic Claude 3.5 Sonnet 和 OpenAI GPT-4o 等 AI 旗舰产品竞争。与付费的闭源竞争对手不同,读者可以在配备极其强大的 Nvidia 显卡 (GPU) 的自己的计算机上定制和运行免费的 LLM。
创造与能源
Meta 在其 Meta Grand Teton AI 服务器平台上利用高达 16,384 个 700W TDP H100 GPU 来产生在 16.55 万亿个代币(1000 个代币约为 750 个单词)上创建 4050 亿参数模型所需的 3.8 x 10^25 FLOPs。在预训练期间,与 GPU 相关的故障导致 57.3% 的停机时间,其中 30.1% 是由于 GPU 故障造成的。
在文档上预训练 AI 花费了超过 54 天的时间,总共使用了 3930 万个 GPU 小时来训练 Llama 3.1 405B。据快速估计,训练期间的电力消耗超过 11 GWh,释放了 11,390 吨二氧化碳当量的温室气体。
安全与性能
在网络安全、儿童安全、化学和生物攻击、及时注射等领域进行广泛培训,并使用 Llama Guard 3 过滤输入和输出文本,与竞争的 AI 模型相比,获得了更好的安全性能。尽管如此,可用于培训的外语文件数量较少,这意味着 Llama 3.1 更有可能用葡萄牙语或法语回答危险问题,而不是用英语回答。
Llama 3.1 405B 在大学和研究生水平的 AI 测试中得分为 51.1% 至 96.6%,与 Claude 3.5 Sonnet 和 GPT-4o 一致。在人类评分的真实测试中,GPT-4o 提供的答案比 Llama 高出 52.9%。该模型在知识截止日期 2023 年 12 月之后一无所知,但它可以使用 Brave Search 在线收集最新信息,使用 Wolfram Alpha 求解数学,并使用 Python 解释器解决编码问题。
要求
有兴趣在本地运行 Llama 3.1 405B 的研究人员将需要具有 750 GB 可用存储空间的极其强大的计算机。在具有 1 TB RAM 的系统中,运行完整模型需要 8 个 Nvidia A100 GPU 或类似 GPU,提供两个 MP16 节点和 810 GB GPU VRAM 用于推理。Meta 发布了需要较少但性能较差的较小版本:Llama 3.1 8B 和 70B。 Llama 3.1 8B 只需要 16 GB 的 GPU VRAM,因此它可以在装备精良的 Nvidia 4090 系统(如亚马逊上的这台笔记本电脑)上运行良好,大致相当于 GPT-3.5 Turbo 的水平。只想使用顶级 AI 的读者可以安装 Anthropic 的 Android 或 iOS 应用程序等应用程序。