2025/04/11 17:46:39 1,842次浏览

新智元报道

编辑:编辑部 HYZ

【新智元导读】Llama 4刚出世就被碾压!英伟达强势开源Llama Nemotron-253B推理模型,在数学编码、科学问答中准确率登顶,甚至以一半参数媲美DeepSeek R1,吞吐量暴涨4倍。关键秘诀,就在于团队采用的测试时Scaling。

Llama 4诞生不过3天,反手就被超越了。

刚刚,英伟达官宣开源「超大杯」Llama Nemotron推理模型,共有253B参数,基于Llama-3.1-405B微调而来。

在多项基准测试中,Llama Nemotron一举击败了两款Llama 4模型。而且仅用一半的参数,性能直逼DeepSeek R1。

尤其是,在复杂数学推理AIME(2024/2025)、科学推理GPQA Diamond、编码LiveCodeBnech中,新模型取得SOTA。

相比DeepSeek R1 671B,它的推理吞吐量提升了4倍。

Llama-3.1-Nemotron-Ultra-253B-v1经过后期训练,专注于推理、人类聊天偏好和任务,如RAG(检索增强生成)和工具调用。

它能支持128Ktoken的上下文长度,且能够在单个8xH100芯片节点上进行推理。

这个模型之所以能达到如此强的推理性能,是因为在模型精度和效率之间取得了良好平衡,让效率(吞吐量)直接转化为成本节省。

通过采用一种新颖的神经架构搜索(NAS)方法,研究者大大减少了模型的内存占用,从而支持更大的工作负载,并减少了在数据中心环境中运行模型所需的GPU数量。

现在,该模型已准备好支持商用。

Llama Nemotron超大杯上线,推理开源天花板

今年3 月,英伟达首次亮相了Llama Nemotron系列推理模型。

它一共包含三种规模:Nano、Super 和 Ultra,分别针对不同场景和计算资源需求,供开发者使用。

· Nano

Nano(8B)基于Llama 3.1 8B微调而来,专为PC和边缘设备而设计。

如下图,Llama Nemotron Nano在GPQA Diamond、AIME 2025、MATH-500、BFCL、IFEval、MBPP和MTBench等多项基准测试中,展现出领先性能。

图 1. Llama Nemotron Nano在一系列推理和智能体基准测试中提供同类最佳性能

· Super

Super(49B)是从Llama 3.3 70B蒸馏而来,针对数据中心GPU进行了优化,便可实现最高吞吐量下的最佳准确性。

下图显示,Llama Nemotron Super在GPQA Diamond、AIME 2024/2025、MATH-500、MBPP、Arena Hard、BFCL和IFEval等多项基准测试,取得了最优性能。

图 2. Llama Nemotron Super在一系列推理和智能体基准测试中提供领先性能

· Ultra

Ultra(253B)是从Llama 3.1 405B蒸馏而来,专为多GPU数据中心打造最强智能体而设计,

图表显示,采用FP8精度的Llama Nemotron Ultra 253B在GPQA、Complex Math、BFCL、LiveCodeBench以及IFEval上表现出色。

图3. FP8精度的Llama Nemotron Ultra提供同类最佳的推理和智能体基准测试性能

Llama Nemotron家族模型均是基于开源 Llama构建,并采用英伟达审核后的数据集合成数据,因此全部可以商用。

秘密武器:测试时Scaling

英伟达是如何训练出性能如此卓越的模型的?背后的关键,就在于「测试时scaling」(或称推理时scaling)和「推理」。

测试时scaling这项技术,会在模型推理阶段投入更多计算资源,用以思考和权衡各种选项,来提升模型响应质量,这就使得模型在关键下游任务上的性能得以提升。

对问题进行推理是一项复杂的任务,而测试时投入的计算资源,正是使这些模型能达到前述需推理水平的关键因素。

它能让模型在推理期间利用更多资源,开辟更广阔的可能性空间,从而增加模型建立起必要关联、找到原本可能无法获得的解决方案的几率。

尽管「推理」和「测试时scaling」对智能体工作流如此重要,但有一个共同问题,却普遍困扰着如今最先进的推理模型——

开发者无法选择何时让模型进行推理,也就是说,做不到在「推理开启」和「推理关闭」之间自由切换。

而Llama Nemotron系列模型则攻破了这一难题,用「系统提示词」来控制推理开关!

如何构建?

Llama 3.3 Nemotron 49B Instruct以Llama 3.3 70B Instruct为基础模型,经历了一个广泛的后训练阶段后,不仅模型尺寸减小,还让原始能力保留甚至增强了。

三个后训练阶段如下。

1. 通过神经架构搜索 (NAS) 和知识蒸馏进行蒸馏。

2. 监督微调:使用了由英伟达创建的600亿Token 合成数据(代表了所生成的 3000万样本中的400万),以确保在「推理关闭」和「推理开启」两种模式下内容的高质量。在此阶段,团队利用了NVIDIA NeMo框架,有效且高效地扩展了后训练流程。

3. 强化学习:这个阶段是利用NVIDIA NeMo完成的,模型的对话能力和指令遵循性能得以增强,从而在广泛的任务中都能提供高质量的响应。

第一个阶段(步骤1和2)已在神经架构搜索 (NAS) 技术报告中详细阐述。

简而言之,该阶段可被视为通过多种蒸馏和NAS方法,依据特定的旗舰硬件,将各模型的参数量「调整至合适尺寸」,从而达到预选的最优值。

模型后训练的第二个阶段(步骤3和4)则涉及由合成数据驱动的监督微调,目的在于实现几个关键目标。

首要目标,就是提升模型在多种任务上的非推理性能。

后训练流程的这一环节(步骤3)利用了团队精选的提示词,通过基线模型 (Llama 3.3 70B Instruct) 以及Qwen2.5 7B Math和Coder模型生成合成数据。

这些数据随后经过团队的精选与审核,用于增强模型在聊天、数学和代码任务上的「推理关闭」模式下的性能。

同时,团队也投入大量精力,确保在此阶段,「推理关闭」模式下的指令遵循和函数调用性能达到同类最佳水平。

第二个目标(步骤4)是通过在精选的DeepSeek-R1数据(仅限数学、代码和科学领域)上进行训练,打造出同类最佳的推理模型。

每一个提示词和响应都经过严格筛选,确保在推理能力增强过程中仅使用高质量数据,并辅以NVIDIA NeMo框架的支持。这就能确保团队可以选择性地从 DeepSeek-R1中蒸馏出它在优势领域所具备的强大推理能力。

「推理开启」/「推理关闭」两种模式的训练(步骤3和4)是同时进行的,两者唯一的区别在于系统提示词。

这意味着,最终生成的模型既能作为推理模型运行,也能作为传统的LLM运行,并通过一个开关(即系统提示词)在两种模式间切换。

这种设计,使得组织机构能够将单个尺寸适宜的模型同时用于推理任务和非推理任务。

最后一个阶段(步骤5和6)则采用了强化学习来更好地对齐用户意图与期望。

模型首先利用REINFORCE算法和基于启发式的验证器,针对指令遵循和函数调用这两个任务进行RL以提升性能(步骤5)。

随后,采用RLHF技术,结合HelpSteer2数据集和NVIDIA Llama 3.1 Nemotron奖励模型,对最终模型进行面向聊天应用场景的对齐(步骤6)。

最终,这些后训练步骤打造出了同类最佳的推理模型,并且通过提供在两种范式(推理与非推理)间切换的机制,确保了模型在函数调用和指令遵循方面的性能不受影响。

模型则能高效支持智能体AI工作流中的各个,同时还能保持针对旗舰级英伟达硬件优化的最佳参数量。

性能刷新SOTA,吞吐量最高5倍提升

· Llama Nemotron Super

Llama Nemotron融合了DeepSeek-R1等模型强大的推理能力,以及Llama 3.3 70B Instruct具备的强大世界知识与对可靠工具调用及指令遵循,最终打造出在关键智能体任务上表现领先的模型。

结果显示,Llama Nemotron 49B准确性最高,且吞吐量提升达5倍。

图 5. Llama Nemotron Super为智能体任务提供了最高的准确性和吞吐量,从而降低了推理成本

· Llama Nemotron Ultra 253B

Llama Nemotron Ultra总参数量仅为253B,但其推理性能已达到甚至超越DeepSeek-R1等顶级开放推理模型。

与此同时,凭借优化的模型尺寸实现了显著更高的吞吐量,并保留了优秀的工具调用能力。

这种卓越推理能力与毫不妥协的工具调用能力的结合,使其成为智能体工作流领域的同类最佳模型。

除了应用Llama Nemotron Super的完整后训练流程外,Llama Nemotron Ultra还额外经历了一个专注的RL阶段,旨在进一步增强其推理能力。

结果表明,相较于DeepSeek-R1 671B,Llama Nemotron Ultra的吞吐量提升高达4倍,并且在GPQA、AIME 2024、AIME 2025、BFCL、LiveCodeBench、MATH500和IFEval的等权重平均准确性方面取得最高分。

图6. Llama Nemotron Ultra同时提供卓越的准确性和惊人的吞吐量

打造多智能体系统,搞定复杂任务

由Llama 3.3 Nemotron 49B Instruct驱动的多智能体协作系统,在Arena Hard 基准测试中,拿下了惊艳的92.7分。

传统的测试时计算scaling方法,大多聚焦于那些有明确答案的问题,比如数学题、逻辑推理、编程竞赛。

现实中,许多重要任务缺乏可验证的解决方案,比如提出创新研究思路、撰写学术论文,或是为复杂的软件产品开发有效的交付策略。

这些问题,往往更具挑战性,也更贴近实际需求。

Llama Nemotron测试时计算scaling系统正是为此而生,它模仿了人类解决复杂问题写作模式,通过以下几个步骤实现:

1. 集思广益: 针对问题初步构思一个或多个解决方案。

2. 获取反馈: 就初步方案征求朋友、同事或其他专家的意见。

3. 编辑修订: 根据收集到的反馈对初步方案进行修改。

4. 择优选取: 在整合修订意见后,选出最具潜力的最终解决方案。

这种方法使得测试时计算scaling技术能够应用于更广泛的通用领域任务。

要形象地理解这个多智能体协作系统,可以将其类比为一个团队协同工作,为一个没有标准答案的开放式问题寻找最佳解决方案。

与之相对,「长思考」则好比训练单个人深度、持久地钻研一个问题,最终得出一个可以对照标准答案进行验证的结果。

因此,多智能体系统强大之处在于,不仅提升解决复杂问题效率,还能通过协作挖掘更多可能性。

参考资料:

https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/

https://build.nvidia.com/nvidia/llama-3_1-nemotron-ultra-253b-v1?ncid=so-twit-273200

英伟达253B开源新王登场,Llama 4三天变陪衬!直逼DeepSeek-R1成推理天花板
英伟达253B开源新王登场,Llama 4三天变陪衬!直逼DeepSeek-R1成推理天花板

晚晚老公

「活动」kumadaibiaotitest

2.10MB
版本V0.8.84
下载91PORN丨首页❤安装你想要的应用 更方便 更快捷 发现更多
喜欢 90%好评(45142人)
评论 36
英伟达253B开源新王登场,Llama 4三天变陪衬!直逼DeepSeek-R1成推理天花板截图0 英伟达253B开源新王登场,Llama 4三天变陪衬!直逼DeepSeek-R1成推理天花板截图1 英伟达253B开源新王登场,Llama 4三天变陪衬!直逼DeepSeek-R1成推理天花板截图2 英伟达253B开源新王登场,Llama 4三天变陪衬!直逼DeepSeek-R1成推理天花板截图3 英伟达253B开源新王登场,Llama 4三天变陪衬!直逼DeepSeek-R1成推理天花板截图4
详细信息
  • 软件大小: 60624.48124MB
  • 最后更新: 2025/04/11 17:46:39
  • 最新版本: V3.98463.2
  • 文件格式: apk
  • 应用分类:ios-Android 弥豆子被强❌乳自慰爽
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 6.60717以上
应用介绍
一,成人免费视频🔞国产免费果冻,军人Gay吊大硬喷浓精男🔞
二,18🈲女人张开腿,Naruto❌Sakura纲手comic
三,免费看女人隐私❌视频网站,3D蒂法被❌AV免费观看
四,蜜芽tv深夜㊙️入口,肉体裸交❌❌❌色情免费
五,原神同人❌18禁动漫,美女的洗澡㊙️免费视频
六,成人🔞色情男男Gay做,班长拉起胸让我的🍌伸进去动漫,91在线无码精品㊙️cos西施
七,白丝美女被❌娇喘流白色液体软件
【联系我们】
客服热线:134-2881-646
加载更多
版本更新
V6.7.56
大美女❌❌出水o
  • 成人黄漫软件❌免费下载

    动漫美女哭着扒开🍑

    雨后小故事18🈲

    09523.37MB
    104好评

    2d♥XXX♥game

  • 成人免费视频❌❌❌观看

    动漫美女又黄又❌❌❌

    小米su7视频🔞免费软件

    99949.38MB
    762283好评

    美女裸体全身㊙️网站

  • 18美女又爽❌又黄❌免费网站

    永久免费🔞🔞🔞p站看

    男人的🍌伸到🍑里频频

    13.78MB
    311好评

    又爽❌又黄❌免费网站69

  • 梅花十三被❌🐻黄漫扒衣服

    国产91❤️精彩剌激孕妇

    高清乱码🔞❌♋麻豆漫画

    53.36MB
    277好评

    动漫美女被❌羞羞网站

  • 国产精品㊙️入口JIVD

    三角洲骇爪裸体❌开腿黄漫

    朱竹清疯狂❌喷水自慰爽

    71.23MB
    708好评

    jk美女扒开㊙️c漫画

  • 羞羞韩漫❤免费入口

    美女自愿扒开㊙️视频软件

    月婵强行被❌吸乳羞羞小说

    83.15MB
    332好评

    ✡️✡色✡️网✡️站

  • 女仆扒开腿㊙️让人桶爽的

    jk漫画成人🔞在线观看喷潮号

    纲手裸乳被❌出

    23.05MB
    105好评

    🌸极品国产🌸吃瓜

  • 动漫美女被❌❌到叫出声甜吸

    草🌿榴一区二区三区

    亚洲人做受❌❌❌高潮97张

    50.46MB
    928好评

    91看片白丝少萝❌❌自慰

  • 18🈲🍆🍑有套直免费视频

    欧美接受❌❌❌高潮手拳

    3d美女触手怪爆❌羞羞漫画

    83.77MB
    560好评

    女学生被❌c🐻扒衣服英文网站

  • 成人❌吸乳18禁羞羞在线看

    日本🔞无遮挡打光屁股网站

    🔞无遮挡裸屁屁打屁股

    83.44MB
    757好评

    静香同人被🚫🔞

  • av➕无码➕高潮➕白死

    亚洲㊙️无码一区二区三区妃光/1

    动漫yaoi❤♂Furry自慰

    36.92MB
    6836好评

    美女扒开内👙给男人揉免费观看视频

  • 斯嘉丽裸被❌无码网站

    男人坤坤躁女人㊙️免费看软件

    动漫❌c🐻黄扒衣服做游戏在线看

    91.76MB
    272好评

    雏田被博人❌

  • Free❌❌❌国产天美MD

    cf云悠悠去衣内裸❌

    BRAZZERS💋💋35

    65.58MB
    745好评

    小🐔🐔伸进🈲🔞🔞视频免费看蘑菇

  • 女高中丛被❌到爽🔞流视频动漫

    祼体捆绑㊙️网站

    免费看成人姿势❤️网站

    54.93MB
    759好评

    自慰❌挤奶羞网站毛豆

  • lol18➕动画艾希无码

    美女脱👙露出🐻自己爽视频

    3D蒂法被❌AV免费观看

    57.11MB
    680好评

    精品❌❌sex片

  • 中野三玖裸体被❌羞羞漫画

    爆❌喷水❌洗澡❌小说双男

    胡桃疯狂❌自慰爽18禁

    24.80MB
    354好评

    18禁㊙️啪啪AV动漫小说

  • Naruto❌sakura18禁Hentai

    小日本做❤️视频

    美女的胸❌又黄❌又大jk网站动漫

    13.31MB
    310好评

    mmd跳啪18❌18禁纳西妲

  • Jennie疯狂❌喷水自慰

    国产女性无套✅免费入口

    黄✡️色✡️视✡️频杨幂

    84.37MB
    211好评

    MM131杨晨晨被❌️喷

  • AV➕无码➕白浆➕在线看

    扒开❌狂揉❌难受

    91被❌脱脱内内打扑克

    45.39MB
    737好评

    18🈲免费漫画

  • 美女❌❌爆乳❌❌3d

    原神胡桃18❌黄网站91

    男子㊙️扒开女子的下部

    10.48MB
    188好评

    小黃片㊙️🈲网站ww网站

  • angelababy❌白浆视频

    女帝被扒开腿爆❌乳液狂飙作文

    国产➕成人区亚洲欧洲自线

    44.72MB
    367好评

    疯狂❌自慰❌喷水漫画

  • 18🈲流白浆❌❌舌吻动漫

    tubeFee❌❌❌video

    美女白嫩㊙️光屁屁网站

    91.92MB
    200好评

    lisa裸体❌❌自慰网站免费看

  • 蔡文姬被🌿出水

    不知火舞被扒开腿做❌同人漫

    花火被扒开腿❌❌

    30.74MB
    909好评

    美女裸体㊙️撒尿免费看

  • 黑人桶❌️❌️🍑欧美日韩

    18禁動漫🍆🍑🔞❌❌❌

    大🐔🐔伸进🈲🔞🔞片

    30.00MB
    542好评

    女人被❌免费视频无遮挡

  • 动漫女仆被❌羞羞嗯动漫

    光与夜之恋禁🈲H肉污动3D

    p站♥成人版app旧版

    29.91MB
    125好评

    黄🎆色🎆视🎆频🎆

  • 被粗大的🐔巴捣出白浆翔霖

    扒开老师❌狂揉❌动漫网站

    少妇被c🔞黄❌在线网站视频

    70.15MB
    456好评

    Free❌❌❌video4D

  • 男人㊙️桶美女屁股APP扒开小舞❌狂揉❌难受在线观看 title="国产❌肥老妇❌❌视频国产" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    火影花火被❌吸乳羞羞漫画

    猛男GayGay✅免费网

  • 小乔🌸扒开腿自慰网站动漫女被❌c🐻扒衣服种草 title="黑色丝女仆被❌❌免" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    性裸交❌❌❌❌秀色直播

    灰原嗯~啊~轻🈲🔞

  • c🔞黄㊙️❌B站动漫 屁股 挨打㊙️网站 title="奇优💚电影理论片" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    欧美❌❌❌❌❌色情

    动漫㊙️黄二次元动漫免费软件

把小🐔🐔放进🐻🐻 类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
评论
  • 女人❌又爽❌又黄❌动漫 0天前
    91美女精品❤️😍💃App
  • 美女露出胸㊙️的视频 3天前
    成人🔞高潮片免费视频9.1
  • 美女又色❌又黄❌丝袜裸交 4天前
    大胸美女❌❌爆乳
  • 小心🐤入🍑🍑视频漫画的网站 0天前
    tobu👙1004k
  • 男同志gy🔞www.网站体育生 3天前
    91♥️丨PORNY丨深喉口爆
  • 纲手被扒开腿坐做❌同人网站 3天前
    两男互摸jiji㊙️视频网站
  • 原神❌开裸体漫画网站 1天前
    亚洲⭕⭕⭕⭕XXXX3d白丝
  • 国产精品㊙️软件下载 4天前
    女人和女人👙摸🐻亲嘴
  • 男男Gay做受❌❌视频 8天前
    粉色在线无限看❤免费下载
  • 雏田爆❌漫画羞羞漫画CNMO 9天前
    女撒尿无遮挡㊙️网站