整理:有新
在今天上午开幕的CES2025上,英伟达创始人兼CEO黄仁勋带来了一场里程碑式的主题演讲,揭示AI与计算的未来。从生成AI的核心Token概念,到全新Blackwell架构GPU的发布,再到AI驱动的数字化未来,这场演讲将以跨领域的视角深刻影响整个行业。
1)从生成式AI到AgenticAI:全新时代的序幕
Token的诞生:作为生成AI的核心驱动力,token将文字转化为知识,为图像注入生命,开启了全新的数字表达方式。
AI进化路径:从感知AI、生成AI到能够推理、规划、行动的AgenticAI,AI技术不断跨越新高度。
Transformer的革命:自2018年推出以来,这一技术重新定义了计算方式,彻底颠覆了传统技术栈。
2)BlackwellGPU:突破性能极限
新一代GeForceRTX50系列:基于Blackwell架构,拥有920亿晶体管、4000TOPSAI性能和4PetaFLOPS算力,是前代性能的三倍。
AI与图形的融合:首次实现可编程着色器与神经网络的结合,推出神经纹理压缩和材质着色技术,带来惊艳的渲染效果。
普惠高性能:RTX5070笔记本以$1299的价格实现RTX4090性能,推动高性能计算的普及。
3)AI应用的多领域拓展
企业级AIAgent:NVIDIA提供工具如Nemo和LlamaNemotron,帮助企业构建自主推理的数字员工,实现智能化管理与服务。
PhysicAI:通过Omniverse和Cosmos平台,AI融入工业、自动驾驶和机器人领域,重新定义全球制造和物流。
未来计算场景:NVIDIA正将AI从云端带到个人设备和企业内部,覆盖从开发者到普通用户的所有计算需求。
以下为黄仁勋本次演讲的主要内容:这是智慧的诞生之地,一种全新的工厂——生成token的发电机。它是AI的构建模块,开启了一个新领域,也迈出了进入非凡世界的第一步。token将文字转化为知识,为图像注入生命;它们将创意变成视频,帮助我们安全地导航任何环境;教会机器人像大师一样移动,并激发我们用全新方式庆祝胜利。在我们最需要的时候,token还能带来内心的平静。它们赋予数字意义,帮助我们更好地理解世界,预测潜在的危险,并寻找治疗内在威胁的办法。它可以让我们的愿景成真,修复我们失去的一切。
AI的这一切开始于1993年,英伟达推出了第一款产品——NV1。我们想要创造出能够实现普通计算机无法完成之事的电脑,这让在PC中拥有游戏机成为可能。随后,1999年,英伟达发明了可编程GPU,开启了超过20年的技术进步,现代计算机图形学由此成为可能。六年后,我们推出CUDA,通过丰富的算法表达GPU的可编程性。这项技术最初难以解释,但到2012年,AlexNet的成功验证了CUDA的潜力,推动了AI的突破性发展。
自那时起,AI以惊人的速度发展。从感知AI到生成式AI,再到能够感知、推理、规划和行动的AgenticAI,AI的能力不断提升。2018年,谷歌推出Transformer,AI的世界真正起飞。Transformer不仅彻底改变了AI的格局,也重新定义了整个计算领域。我们意识到,机器学习不仅仅是一个新的应用或商业机会,而是对计算方式的根本性革新。从手动编写指令到用机器学习优化神经网络,技术栈的每一层都发生了巨大的变化。
如今,AI的应用已无处不在。无论是理解文字、图像、声音,还是翻译氨基酸和物理学,它都能完成。几乎所有的AI应用都可以归结为三个问题:它学习了什么模态的信息?翻译成了什么模态的信息?生成了什么模态的信息?这种基本概念推动了AI驱动的每一个应用。
所有这些成就离不开GeForce的支持。GeForce让AI走向大众,而现在,AI正回归GeForce。借助实时光线追踪技术,我们能够以令人惊叹的效果渲染图形。通过DLSS,AI甚至可以超越帧的生成,预测未来的画面。3300万像素中仅有200万像素是计算得出的,其余的由AI预测生成。这种奇迹般的技术,展现了AI的强大能力,让计算更加高效,也让我们看到了未来的无限可能。
这是为什么现在发生了如此多令人惊叹的事情。我们利用GeForce推动了AI的发展,而现在,AI正在彻底革新GeForce。今天,我们宣布下一代产品——RTXBlackwell家族。让我们一起来看看。
这是全新的GeForceRTX50系列,基于Blackwell架构。这款GPU是一台性能怪兽,拥有920亿晶体管、4000TOPS的AI性能和4PetaFLOPS的AI算力,比上一代Ada架构高出三倍。这一切都为了生成我刚才展示的那些令人惊叹的像素。它还具备380光线追踪Teraflops,为需要计算的像素提供尽可能美丽的画质,同时还有125着色Teraflops。这款显卡采用了Micron的G7显存,速度达到每秒1.8TB,是上一代的两倍性能。
我们现在可以将AI工作负载与计算机图形工作负载结合起来,这一代产品的一个非凡特性是可编程着色器也可以处理神经网络。这使得我们发明了神经纹理压缩和神经材质着色。这些技术通过AI学习纹理和压缩算法,最终生成了只有AI才能实现的惊艳图像效果。
即使在机械设计方面,这款显卡也是一个奇迹。它采用了双风扇设计,整个显卡就像一个巨大的风扇,内部的电压调节模块是最先进的。如此卓越的设计完全归功于工程团队的努力。
接下来是性能对比。大家熟悉的RTX4090,售价$1599,是家用PC娱乐中心的核心投资。而现在,RTX50系列提供更高性能的同时,起价仅为$549,从RTX5070到RTX5090,性能是RTX4090的两倍。
更令人惊叹的是,我们将这种高性能GPU放进了笔记本中。RTX5070笔记本售价$1299,却具备RTX4090的性能。这种设计结合了AI和计算机图形技术,让高能效和高性能得以实现。
未来的计算机图形学将是神经渲染——AI与计算机图形的融合。Blackwell系列甚至可以在厚度仅14.9毫米的笔记本中实现,从RTX5070到RTX5090的全系列产品都可以适配超薄笔记本。
GeForce推动了AI的普及,而现在AI反过来彻底变革了GeForce。这是技术与智能的相互促进,我们正在迈向更高的境界。
AI的三种ScallingLaw接下来,让我们谈谈AI的发展方向。
1)预训练ScallingLaw
AI行业正在加速扩展,推动这一进程的是一种被称为「ScallingLaw」的强大模型。这一经验法则由研究人员和产业界反复验证,表明训练数据的规模越大、模型的规模越大、计算能力投入越多,模型的能力也会越强。
数据的增长速度正在以指数级加快。据估计,在未来几年,人类每年生产的数据量将超过此前人类历史上生产的总和。这些数据正变得多模态化,包括视频、图像和声音等形式。这些海量数据可以用来训练AI的基础知识体系,为AI奠定坚实的知识基础。
2)后训练ScallingLaw
除此之外,还有另外两种ScallingLaw正在兴起。
第二种ScallingLaw是「后训练ScallingLaw」,它涉及技术如强化学习和人类反馈。通过这种方式,AI根据人类的查询生成答案,并从人类的反馈中不断改进。这种强化学习系统通过高质量的提示,帮助AI精进特定领域的技能,例如更擅长解决数学问题或进行复杂推理。
AI的未来,不仅仅是感知与生成,而是一个不断自我完善、突破边界的过程。它就像拥有一位导师或教练,在你完成任务后提供反馈。通过测试、反馈和自我改进,AI也可以通过类似的强化学习和反馈机制进步。这种后训练阶段的强化学习与合成数据生成技术相结合,类似于自我练习的过程。AI可以面对复杂且具有验证性的难题,例如证明定理或解决几何问题,通过强化学习不断优化自己的答案。这种后训练虽然需要庞大的计算能力,但最终能够创造出非凡的模型。
3)测试时间ScallingLaw
测试时间ScallingLaw也逐渐浮现。这一法则在AI实际被使用时展现出独特的潜力。AI可以在推理时动态分配资源,不再局限于参数优化,而是专注于计算分配,以产生所需的高质量答案。
这个过程类似于推理思考,而非直接推断或一次性回答。AI可以将问题拆解为多个步骤,生成多个解决方案并进行评估,最终选择最优方案。这种长时间推理在提升模型能力方面效果显著。
我们已经看到这种技术的演变,从ChatGPT到GPT-4,再到如今的GeminiPro,所有这些系统都在经历预训练、后训练和测试时间扩展的逐步发展。实现这些突破需要巨大的计算能力,而这正是英伟达Blackwell架构的核心价值。
Blackwell架构最新介绍Blackwell系统正在全面生产中,其性能令人惊叹。如今,每家云服务提供商都在部署这些系统,它们由全球45家工厂生产制造,支持多达200种配置,包括液冷、风冷、x86架构以及英伟达GraceCPU版本等。
其核心组件NVLink系统本身重量高达1.5吨,拥有60万个零件,相当于20辆汽车的复杂程度,背后连接了2英里的铜线与5000根电缆。整个制造过程极其复杂,但目标是为了满足对计算需求不断扩大的需求。
相比上一代架构,Blackwell在每瓦性能上提高了4倍,在每美元性能上提高了3倍。这意味着,在相同成本下,训练模型的规模可以增加3倍,而这些改进背后的关键是生成AItoken。这些token被广泛应用于ChatGPT、Gemini和各种AI服务中,是未来计算的基础。
在此基础上,英伟达推动了全新的计算模式:神经渲染,将AI与计算机图形学完美融合。Blackwell架构下的72块GPU组成了全球最大的单芯片系统,提供了高达1.4ExaFLOPS的AI浮点性能,其内存带宽达到惊人的1.2PB/s,相当于全球所有互联网流量的总和。这种超级计算能力,使得AI能够处理更复杂的推理任务,同时显著降低成本,为更高效的计算奠定了基础。
AIAgent系统与生态展望未来,AI的推理过程不再是简单的单步响应,而是更接近于「内部对话」。未来的AI不仅会生成答案,还会进行反思、推理并不断优化。随着AItoken生成速率的提高和成本的降低,AI的服务质量将显著提升,满足更广泛的应用需求。
为帮助企业构建具有自主推理能力的AI系统,英伟达提供了三个关键工具:英伟达NeMo、AI微服务和加速库。通过将复杂的CUDA软件和深度学习模型打包成容器化服务,企业可以在任意云平台部署这些AI模型,快速开发面向特定领域的AIAgent,例如支持企业管理的服务工具或用户交互的数字员工。
这些模型为企业开辟了新的可能性,不仅降低了AI应用的开发门槛,还推动了整个行业在AgenticAI(自主AI)的方向上迈出坚实的一步。未来的AI将成为数字员工,可以轻松集成到SAP、ServiceNow等企业工具中,在不同环境中为客户提供智能服务。这是AI扩展的下一个里程碑,也是英伟达技术生态系统的核心愿景。
训练评估系统。未来,这些AIAgent人本质上是与员工并肩工作、为您完成任务的数字化劳动力。因此,引入这些专业化的Agent人到您的公司,就像为新员工办理入职一样。我们提供不同的工具库,帮助这些AIAgent人学习公司独特的语言、词汇、业务流程以及工作方式。您需要向他们提供工作成果的示例,他们会尝试生成,然后您可以提供反馈、进行评估等等。同时,您也会设置限制,比如明确他们不能执行哪些操作、不能说什么,并控制他们可以访问的信息。这整个数字员工流程被称为Nemo。某种程度上,每个公司的IT部门将成为AIAgent人的HR部门。
如今,IT部门管理并维护大量软件;未来,他们将管理、培养、入职并改进大量数字Agent人,为公司提供服务。因此,IT部门将逐渐演变为AIAgent人的HR部门。
此外,我们提供许多开源的蓝图供生态系统使用。用户可以自由修改这些蓝图。我们为各种不同类型的Agent人提供了蓝图。今天,我们也宣布了一件非常酷且聪明的事情:我们推出了一个基于Llama的全新模型家族,即英伟达LlamaNemoTron语言基础模型系列。
Llama3.1是一个现象级的模型。Meta的Llama3.1下载量达到约350,650,000次,并衍生出了大约60,000种其他模型。这是推动几乎所有企业和行业开始研究AI的核心原因之一。我们意识到Llama模型可以为企业用例进行更好的微调。利用我们的专业知识和能力,我们将其微调为LlamaNemotron开放模型套件。
这些模型分为不同大小:小型模型响应快速;主流的超级模型SuperLlamaNemotron是常规用途模型;而超大型模型UltraModel则可作为教师模型,用于评估其他模型、生成答案并决定其质量,或用作知识蒸馏模型。所有这些模型现已上线。
这些模型表现卓越,在对话、指令和信息检索等领域的排行榜上名列前茅,非常适合全球范围内的AIAgent功能。
我们与生态系统的合作也十分紧密,例如与ServiceNow、SAP、Siemens在工业AI方面的合作。Cadence和Perplexity等公司也在开展出色的项目。Perplexity颠覆了搜索领域,Codium则服务于全球3,000万软件工程师。AI助手将极大提高软件开发人员的生产力,这是AI服务的下一个巨大应用领域。全球有10亿知识工作者,AIAgent可能是下一个机器人行业,潜力达到数万亿美元。
AIAgent蓝图接下来展示一些与合作伙伴共同完成的AIAgent蓝图。
AIAgent是新的数字劳动力,能够协助或代替人类完成任务。英伟达的AgenticAI构建模块、NEM预训练模型和Nemo框架,帮助组织轻松开发并部署AIAgent。这些Agent可被训练为领域特定的任务专家。
以下是四个示例:
研究助理Agent:能够阅读复杂文件,如讲座、期刊、财务报告等,并生成交互式播客,便于学习;
软件安全AIAgent:帮助开发者持续扫描软件漏洞,并提示采取相应措施;
虚拟实验室AIAgent:加速化合物设计与筛选,快速找到潜在药物候选者;
视频分析AIAgent:基于英伟达Metropolis蓝图,分析来自数十亿摄像头的数据,生成交互式搜索、和报告。例如,监控交通流量、设施流程,提供改进建议等;
物理AI时代的到来我们希望将AI从云端带到每个角落,包括公司内部和个人PC。英伟达正努力将WindowsWSL2(Windows子系统)转变为支持AI的首选平台。这将使开发者和工程师更便捷地利用英伟达的AI技术栈,包括语言模型、图像模型、动画模型等。
此外,英伟达推出了Cosmos,首个物理世界基础模型开发平台,专注于理解物理世界的动态特性,例如重力、摩擦、惯性、空间关系、因果关系等。它可以生成符合物理规律的视频、场景,广泛应用于机器人、工业AI和多模态语言模型的训练与验证。
Cosmos通过连接英伟达Omniverse提供物理仿真,生成真实可信的模拟结果。这种结合是机器人和工业应用开发的核心技术。
英伟达的工业战略基于三个计算系统:
用于训练AI的DGX系统;
部署AI的AGX系统;
数字孪生系统,用于强化学习和AI优化;
通过这三个系统的协同工作,英伟达推动了机器人和工业AI的发展,构建了未来的数字化世界与其说这是一个三体问题,我们有一个「三计算机」解决方案。
英伟达的机器人愿景让我给您展示三个例子。
1)工业可视化的应用
目前,全球有数百万工厂和数十万个仓库,它们构成了价值50万亿美元制造业的骨干。未来,这一切都需要实现软件定义和自动化,并融入机器人技术。我们与全球领先的仓库自动化解决方案提供商Keon,以及全球最大的专业服务提供商Accenture合作,专注于数字化制造,共同创造一些非常特别的解决方案。我们的市场推广方式与其他软件和技术平台类似,通过开发者和生态系统合作伙伴进行,并且越来越多的生态伙伴接入了Omniverse平台。这是因为每个人都希望可视化工业的未来。在这50万亿美元的全球GDP中,有如此多的浪费,也有如此多的自动化机会。
来看Keon和Accenture与我们合作的这个示例:
Keon(供应链解决方案公司)、Accenture(全球专业服务领军者)和英伟达正将物理AI引入价值万亿美元的仓库和配送中心市场。管理高效的仓库物流需要应对复杂的决策网络,这些决策受到不断变化的变量影响,例如每日及季节性需求变化、空间限制、劳动力供应,以及多样化机器人和自动化系统的整合。今天,要预测物理仓库的运营关键绩效指标(KPIs)几乎是不可能的。
为了解决这些问题,Keon正在采用Mega(一个英伟达Omniverse蓝图)来构建工业数字孪生,以测试和优化机器人车队。首先,Keon的仓库管理解决方案将任务分配给数字孪生中的工业AI大脑,例如将货物从缓冲区位置移动到穿梭存储解决方案。机器人车队在Omniverse中的物理仓库模拟环境中,通过感知和推理执行任务,规划下一步动作并采取行动。数字孪生环境使用传感器模拟,让机器人大脑可以看到任务执行后的状态,并决定接下来的动作。在Mega的精确追踪下,整个循环持续进行,同时测量操作KPI,如吞吐量、效率和利用率,所有这些都在对物理仓库进行改动之前完成。
借助英伟达的合作,Keon和Accenture正在重新定义工业自治的未来。
未来,每个工厂都将拥有一个数字孪生,这个数字孪生与实际工厂完全同步。您可以利用Omniverse和Cosmos生成大量未来场景,AI将决定最优的KPI场景,并将其作为实际工厂部署的约束条件和AI编程逻辑。
2)自动驾驶汽车
自动驾驶革命已经到来。经过多年的发展,无论是Waymo还是Tesla的成功,都证明了自动驾驶技术的成熟。我们的解决方案为这一行业提供了三种计算机系统:用于训练AI的系统(如DGX系统)、用于模拟测试和生成合成数据的系统(如Omniverse和Cosmos),以及车内的计算机系统(如AGX系统)。全球几乎所有主要汽车公司都在与我们合作,包括Waymo、Zoox、Tesla,以及世界最大的电动车公司BYD。还有即将推出创新车型的Mercedes、Lucid、Rivian、小米和沃尔沃等公司。Aurora则正在使用英伟达技术开发自动驾驶卡车。
每年有1亿辆汽车制造,全球道路上有10亿辆汽车行驶,每年行驶总里程高达万亿英里。这些将逐渐实现高度自动化或完全自动化。这一行业预计将成为首个价值数万亿美元的机器人行业。
今天,我们宣布推出下一代车载计算机Thor。它是一个通用机器人计算机,能够处理摄像头、高分辨率雷达、激光雷达等传感器的大量数据。Thor是目前行业标准Orin的升级版,计算能力是其20倍,现已全面量产。同时,英伟达的DriveOS是首个被认证达到功能安全最高标准(ISO26262ASILD)的AI计算机操作系统。
自动驾驶数据工厂
英伟达利用OmniverseAI模型和Cosmos平台创建自动驾驶数据工厂,通过合成驾驶场景大幅扩展训练数据。这包括:
OmniMap:融合地图和地理空间数据,构建可驾驶的3D环境;
神经重建引擎:利用传感器日志生成高保真的4D仿真环境,并为训练数据生成场景变体;
Edify3DS:从资产库搜索或生成新的资产,创建用于仿真的场景。
通过这些技术,我们将几千次的驾驶场景扩展为数十亿英里的数据,用于更安全、更先进的自动驾驶系统的开发。
3)通用机器人
通用机器人的时代即将到来。推动这一领域突破的关键在于训练。对于人形机器人来说,模仿数据的获取相对困难,但英伟达的IsaacGroot提供了解决方案。它通过模拟生成海量数据集,并结合Omniverse和Cosmos的多宇宙仿真引擎,进行政策训练、验证和部署。
例如,开发者可以通过AppleVisionPro远程操作机器人,捕捉数据而无需实体机器人,并在无风险环境中教学任务动作。通过Omniverse的领域随机化和3D到真实场景扩展功能,生成指数级增长的数据集,为机器人学习提供海量资源。
总之,无论是工业可视化、自动驾驶,还是通用机器人,英伟达的技术正引领物理AI和机器人领域的未来变革。
最后,我还有一个重要的内容想展示,所有这些都离不开我们十年前在公司内部启动的一个名为ProjectDigits的项目,完整名称为DeepLearningGPUIntelligenceTrainingSystem(深度学习GPU智能训练系统),简称Digits。
在正式发布之前,我们对DGX进行了调整,使其与公司内部的RTX、AGX、OVX以及其他系列产品和谐一致。DGX1的问世真正改变了AI的发展方向,而这也是英伟达对AI发展的一个里程碑。
DGX1的革命性DGX1的初衷是为研究人员和初创企业提供开箱即用的AI超级计算机。想象一下,以往的超级计算机需要用户建造专属设施,设计和打造复杂的基础设施,才能实现其存在。而DGX1则是一台专门为AI开发设计的超级计算机,无需复杂操作,开箱即可使用。
我还记得,2016年我将第一台DGX1交付给一家初创公司——OpenAI。当时,埃隆·马斯克(ElonMusk)、伊利亚·苏茨科维尔(IlyaSutskever)以及英伟达的许多工程师都在场,我们共同庆祝DGX1的到来。这台设备显著推动了AI计算的发展。
如今,AI已经无处不在。不仅限于研究机构和初创企业实验室,正如我一开始提到的,AI已经成为一种全新的计算方式和软件开发方式。每一位软件工程师、创意艺术家,甚至是使用电脑工具的普通用户,都需要一个AI超级计算机。但我一直希望DGX1能够更小一些。
最新AI超级计算机以下是英伟达最新的AI超级计算机。它仍然属于ProjectDigits,目前我们还在寻找更好的命名,欢迎大家提供建议。这是一台真正令人惊叹的设备。
这款超级计算机可以运行英伟达的完整AI软件栈,包括DGXCloud。它既可以用作云端超级计算机,也可以作为一台高性能的工作站,甚至是放在桌面上的分析工作站。最重要的是,它基于我们秘密开发的一款新芯片,代号GB110,这是我们制造的最小型GraceBlackwell。
我手里有一块芯片,给大家展示一下它的内部设计。这款芯片是与全球领先的SoC公司联发科(MediaTek)合作开发的。该CPUSoC专为英伟达定制,使用NVLink芯片对芯片互连技术连接到BlackwellGPU。这个小型芯片现在已经全面投产。我们预计这款超级计算机将在5月左右正式上市
我们甚至提供了「双倍算力」的配置,可以将这些设备通过ConnectX连接在一起,支持GPU直通(GPUDirect)技术。它是一套完整的超级计算解决方案,能够满足AI开发、分析工作和工业应用的各种需求。
此外,还宣布了三款全新Blackwell系统的芯片量产、世界首个物理AI基础模型以及三大机器人领域的突破——自主AIAgent机器人、人形机器人和自动驾驶汽车。