访谈:英伟达谈AI工作负载及其对数据存储的影响

来源:网界网 | 2024-07-03 11:49:33

  人工智能 (AI) 工作负载与我们之前在企业中看到的工作负载完全不同。在 AI 工作的不同阶段,输入/输出 (I/O) 概况和对存储的影响可能会有很大差异。

  经过紧张的训练,我们让人工智能根据它所学到的知识进行推理。此外,我们必须考虑所使用的 AI 框架及其特性,以及对检索增强生成 (RAG) 引用和检查点的存储需求。

  在最近于拉斯维加斯举行的 Pure Storage Accelerate 活动中,有媒体与 Nvidia 副总裁兼 DGX Systems 总经理 Charlie Boyle 会面时,询问了所有这些问题。

  在由两部分组成的系列文章的第一部分中,Boyle 讨论了客户开始 AI 项目的关键数据挑战、客户从 AI 开始的实用技巧,以及 AI 工作负载类型之间的差异,例如训练、微调、推理、RAG 和检查点。

  您认为客户在人工智能数据方面面临的最大挑战是什么?

  最大的挑战是知道哪些数据对你的人工智能有好处,哪些数据对人工智能有害,什么可能无关紧要。

  好的数据将提供更好的见解和更准确的结果。显然,无论您是在做聊天机器人还是其他任何事情,这些数据都将为最终用户提供正确的答案。我认为糟糕的数据是可能掩盖答案的数据,而不是增加价值。

  这可能是旧的数据。如果我正在做一个客户服务聊天机器人,而且它是 15 年前的支持票,那有帮助吗?也许是,也许不是。你,在你自己的企业中,在你自己的领域,必须做出这种区分。

  如果这是 15 年前的帮助台问题,它可能会问,您的电话线是否连接到调制解调器?不再适用于您。

  但是,在工厂基础设施的制造环境中,其中一些资本资产可能已经使用了20年,30年。因此,针对 15 年前发生的问题的一张支持票,该问题每十年才在该制造产品上发生一次,可能对您非常有用。

  因此,面向企业的 AI 的很大一部分是了解您拥有的数据。当我们谈论开始使用 AI 时,从您认为安全的数据开始总是更容易。

  如果我要做一个聊天机器人,而我的训练数据集将是过去 24 个月的 IT 故障单,那可能是超级安全的。这是内部的事情。它是由专家策划的,因为 IT 人员接受了这个问题并写了笔记。或者是经过审查的公司数据,是我的新闻稿中的信息,例如,我在美国证券交易委员会(SEC)的文件中的信息,我知道在法律上必须准确无误。

  或者这里是我在网站上公开的所有营销数据中的信息,例如数据表和产品信息。一个人看着它,认为他们写对了。所以这很容易上手。

  但作为一家企业,你认为,我有 20 年的数据。我应该如何处理所有这些东西?我可以创建见解吗?这就是你第一次赢得人工智能所需要的。你需要向人们展示它是有用的。然后逐步浏览,对我的用户来说,下一个最有用的东西是什么?这些用户可以是内部用户,也可以是外部用户。

  创建一个假设。通过微调现有模型进行 AI 训练很容易。您不再需要等待六个月来构建像 GPT-3 或 GPT-4 这样的基础模型。

  您可以使用像 Llama 这样的现成模型,针对您的域进行微调,并在几周内完成。或者一天,具体取决于模型大小和计算基础结构。

  Adshead:对于想要让 AI 发挥作用的客户,您有什么关键建议?

  第一件事是,有大量现成的 AI 应用程序,您只需要将数据添加到其中即可。我们在 Nvidia 网站上有一个很大的目录。有像Hugging Face这样的网站,用户不仅使用模型,而且还对它们发表评论。

  我们看到的最常见的是聊天机器人。即使是我最先进的人工智能用户,那些拥有这方面的博士学位的人,当我和他们交谈时,就像,伙计们,你不需要编写聊天机器人代码。世界上所有的聊天机器人例子都存在。

  选择一个开始。根据自己的需求进行定制。您不需要博士学位即可开始使用 AI。

  因此,请选择现成的型号。在许多地方,包括我们自己的网站,您可以完全在线试用现成的模型。你不需要把你自己的数据放进去。

  所以你可以说,例如,尝试一下,这种类型的模型对我有什么作用?我可以用它回答哪些类型的问题?您可以决定这是否对您的业务有用,它是否会成为一个好的 IT 聊天机器人或一个好的客户服务查找。

  如果您有一个庞大的网站或产品文档库,那么将聊天机器人放在前面是一件简单、安全的事情。

  作为 IT 用户,作为企业用户,您无需成为聊天机器人专家即可提出模型。模型存在。你只需要向它提供你自己的数据。选择一个你认为有效的模型,并将你自己的数据放入其中。

  但是将公开可用的数据放入其中,因为您没有任何合规风险。所以这并不是说,哎呀,我泄露了一些公司的机密信息。如果我在一个全是公开信息的网站上训练它,那么你就安全了。

  而且,一旦你完成了这几个实验,看看一些模型目录,看看是否有一个例子可以解决你业务中的特定痛点,你愿意投入一个月或三个月的项目努力。

  训练、微调训练、推理、使用 RAG 以及 AI 中使用的不同框架在 I/O 配置文件方面有什么区别?检查点的要求是什么?他们对存储有什么要求?

  如果你从头开始训练一个大型模型,你需要非常快的存储,因为人工智能训练的很多工作方式都是它们同时命中同一个文件,因为一切都是并行完成的。这需要非常快的存储,非常快的检索。它主要是面向阅读的。

  使用检查点时,I/O 密集型工作非常密集,因为与训练数据集成比例。如果只有一个节点进行训练,那么一个节点(一个节点的网络连接)出现故障的可能性非常小。因此,如果我可以在一个节点上完成训练,并且需要四个小时才能完成训练运行,那么我可能不需要检查点。

  万一真的出了什么事,我可以重做四个小时。然后是相反的极端,我们在非常大的语言模型或自动驾驶汽车技术中经常看到,其中训练运行可能需要三周,可能需要三个月,可能有数千个计算节点。你可以保证,有了这么大的集群和这么长的训练集,就会发生一些事情。

  宇宙射线会击中该星团中的某些东西,这将导致一些错误。如果你不检查,你可能会得到,例如,两个月,如果你没有检查点,你必须完全重新开始。

  那么问题来了,我多久检查一次?因为当我执行检查点时,所有计算都会停止。这一切都与写作有关。每个人都在同时写作。

  当您检查时,在一个理想的集群中,每个人都在同一时间完成。在经过精心调整的集群中,它们只需几秒钟即可完成。然后偶尔,在一个非常大的集群上,你可能有一些节点,无论出于何种原因,可能比其他节点慢一点。也许他们漂移了几分钟。

  但是当每个人都说,我已经到达了10公里大关时,每个人都停下来,每个人都在写作。根据你的模型有多大,你的数据有多大,这可能是一个很长的写入。有时写作要一个多小时。

相关阅读

每日精选