根据苹果支持的科学家团队研究人类可以轻松胜过AI

来源：网界网 | 2024-10-15 11:30:05

　　本月早些时候，由苹果支持的六名 AI 科学家组成的团队发表了一项研究，他们在其中介绍了 GSM-Symbolic，这是一种新的 AI 基准测试，“可实现更可控的评估，为衡量模型的推理能力提供关键见解和更可靠的指标。可悲的是，看起来 LLM 仍然受到严重限制，并且缺乏最基本的推理能力，揭示了使用 GSM-Symbolic 与 Meta 和 OpenAI 等行业偶像的 AI 引擎进行的初步测试。

　　正如上述测试所揭示的那样，现有模型的问题在于 LLM 在进行类似查询时缺乏可靠性。该研究得出的结论是，不会改变对人类查询含义的轻微措辞变化通常会导致 AI 机器人给出不同的答案。该研究没有突出任何突出的模型。

　　“具体来说，所有模型的性能 [甚至] 在 GSM-Symbolic 基准测试中仅更改问题中的数值时，”

　　研究总结道，还发现

　　“这些模型中数学推理的脆弱性 [表明] 随着问题中子句数量的增加，它们的性能会显着恶化。”

　　该研究共有 22 页，可在此处找到(PDF 文件)。最后两页包含的问题在末尾添加了一些不相关的信息，这不应该改变人类解决它的最终结果。但是，所使用的 AI 模型也考虑了这些部分，因此给出了错误的答案。

　　总而言之，AI 模型仍然无法超越模式识别，并且仍然缺乏可推广的问题解决能力。今年，推出了不少 LLM，包括 Meta AI 的 Llama 3.1、Nvidia 的 Nemotron-4、Anthropic 的 Claude 3、日本的 Fugaku-LLM(有史以来最大的专门使用 CPU 能力训练的模型)以及 Rubik 的 AI 的 Nova，这是本月早些时候推出的 LLM 系列。

　　明天，O'Reilly 将发布 Jay Alammar 和 Maarten Grootendorst 编写的《动手实践大型语言模型：语言理解和生成》的第一版。它的价格标签上写着 48.99 美元或 59.13 美元。

每日精选

基于Arch的Bluestar Linux 6.11.3现已提供多个更新包

　　虽然Arch Linux已经存在了二十多年，但 Bluestar Linux 还有两年时间才能最终迎来 10 周年纪念日。Bluestar 是一个旨在让任何人

2024-10-15
Cuktech推出Anker MagGo磁性无线移动电源竞争对手

　　Cuktech 推出了许多新产品，这些产品可能很快就会在全球首次亮相。其中包括 Cuktech CP122M，它是 Anker MagGo 622 的竞争对手

2024-10-15
小米智能饮水机（冷热）即将推出有四种预设水量选项

　　小米智能饮水机(冷热)已出现在该品牌全球网站的列表中。该设备可以通过随附的应用程序或使用内置 LCD 进行控制，用户可以调整分配水

2024-10-15
分析师预计苹果将在2026年发布Vision Pro 2头显

　　虽然虚拟现实 (VR) 头显市场尚未达到主流地位，但 Meta 继续以越来越激进的定价降低进入门槛。为此，它刚刚发布了Quest 3S，将于

2024-10-15
安克推出更强大的Anker USB-C转USB-C编织电缆

　　在亚马逊发现了一种新的安克 USB-C 转 USB-C 电缆。该配件具有编织尼龙外壳，据说比其前身具有更长的预期续航。安克尚未正式宣布该

2024-10-15
迪卡侬宣布推出新款Rockrider E-EXPL 900电动山地自行车

　　迪卡侬在 Roc d& 39;Azur 2024 上推出了 Rockrider E-EXPL 900 26 英寸电动山地自行车。新型号专为儿童设计，预计要到 2025

2024-10-15
大疆Air 3S最终定价暗示了新的规格组合选项高达1599欧元

　　随着大疆 Air 3S将于明天正式发布，另一次定价泄漏已经浮出水面，为消费者可以期待什么提供了更清晰的信息。今天，这架无人机的预告

2024-10-15
爆料者透露了三星Galaxy Z Fold6特别版和三星W25的可能外观

　　自从 Ice Universe 对三星传闻已久的限量版可折叠设备进行爆料。讨论了 Galaxy Z Fold6 特别版的显示屏折痕状态，认为这比以往

2024-10-15

根据苹果支持的科学家团队研究人类可以轻松胜过AI

相关阅读

每日精选

基于Arch的Bluestar Linux 6.11.3现已提供多个更新包

Cuktech推出Anker MagGo磁性无线移动电源竞争对手

小米智能饮水机（冷热）即将推出有四种预设水量选项

分析师预计苹果将在2026年发布Vision Pro 2头显

安克推出更强大的Anker USB-C转USB-C编织电缆

迪卡侬宣布推出新款Rockrider E-EXPL 900电动山地自行车

大疆Air 3S最终定价暗示了新的规格组合选项高达1599欧元

爆料者透露了三星Galaxy Z Fold6特别版和三星W25的可能外观

24小时排行

一周排行

榜单

根据苹果支持的科学家团队研究 人类可以轻松胜过AI

相关阅读

每日精选

24小时排行

一周排行

榜单

根据苹果支持的科学家团队研究人类可以轻松胜过AI