根据苹果支持的科学家团队研究 人类可以轻松胜过AI

来源:网界网 | 2024-10-15 11:30:05

  本月早些时候,由苹果支持的六名 AI 科学家组成的团队发表了一项研究,他们在其中介绍了 GSM-Symbolic,这是一种新的 AI 基准测试,“可实现更可控的评估,为衡量模型的推理能力提供关键见解和更可靠的指标。可悲的是,看起来 LLM 仍然受到严重限制,并且缺乏最基本的推理能力,揭示了使用 GSM-Symbolic 与 Meta 和 OpenAI 等行业偶像的 AI 引擎进行的初步测试。

  正如上述测试所揭示的那样,现有模型的问题在于 LLM 在进行类似查询时缺乏可靠性。该研究得出的结论是,不会改变对人类查询含义的轻微措辞变化通常会导致 AI 机器人给出不同的答案。该研究没有突出任何突出的模型。

  “具体来说,所有模型的性能 [甚至] 在 GSM-Symbolic 基准测试中仅更改问题中的数值时,”

  研究总结道,还发现

  “这些模型中数学推理的脆弱性 [表明] 随着问题中子句数量的增加,它们的性能会显着恶化。”

  该研究共有 22 页,可在此处找到(PDF 文件)。最后两页包含的问题在末尾添加了一些不相关的信息,这不应该改变人类解决它的最终结果。但是,所使用的 AI 模型也考虑了这些部分,因此给出了错误的答案。

  总而言之,AI 模型仍然无法超越模式识别,并且仍然缺乏可推广的问题解决能力。今年,推出了不少 LLM,包括 Meta AI 的 Llama 3.1、Nvidia 的 Nemotron-4、Anthropic 的 Claude 3、日本的 Fugaku-LLM(有史以来最大的专门使用 CPU 能力训练的模型)以及 Rubik 的 AI 的 Nova,这是本月早些时候推出的 LLM 系列。

  明天,O'Reilly 将发布 Jay Alammar 和 Maarten Grootendorst 编写的《动手实践大型语言模型:语言理解和生成》的第一版。它的价格标签上写着 48.99 美元或 59.13 美元。

相关阅读

每日精选