新一代推理模型“Step Reasoner mini”亮相 性能超越OpenAI对手

来源:网界网 | 2025-01-17 17:53:05

  今天,阶跃星辰公司宣布推出其自研的推理模型——Step Reasoner mini(简称Step R-mini)。该模型在多个数学基准测试中表现突出,尤其是在AIME和Math等领域的测试成绩上,成功超越了目前广泛使用的o1-preview,并在LiveCodeBench的代码任务中也取得了更好的效果,表现出较为明显的优势,堪比OpenAI的o1-mini。

  Step Reasoner mini的亮相标志着阶跃星辰在推理模型领域的一次重要突破。该模型通过大规模的强化学习训练,结合On-Policy(同策略)强化学习算法,使其不仅在解决数学、逻辑推理、编程代码等任务时展现出强大的准确性,还能够在文学创作和日常对话中展现出较高的创造性和人性化的交互能力。

  据公司介绍,Step Reasoner mini的成功得益于其在训练过程中的创新方法。在强化学习训练的基础上,Step Reasoner mini利用先进的算法架构,能够更好地结合深度学习和强化学习的优势,以应对复杂的推理问题和多样的任务需求。这使得它不仅能够精准解答数学难题,还能处理诸如逻辑推理和程序代码生成等高难度任务,同时具备与人类进行自然对话的能力。

  在日常应用场景中,Step Reasoner mini的表现尤为亮眼。其不仅在计算机科学领域的代码任务中表现出色,在处理数学公式、逻辑推理题目时也能够快速准确地给出答案。此外,模型的创新性体现在它还能够进行创意性的写作,生成丰富的文学内容,满足用户在文学创作领域的需求。无论是生成短篇故事、诗歌,还是参与日常聊天,Step Reasoner mini都展现出了相较于其他现有推理模型的优越性。

相关阅读

每日精选