芯东西(公众号:aichip001)
作者 ZeR0
编辑 漠影
芯东西美国圣何塞 3 月 19 日现场报道,美国科技圈最瞩目的 AI 技术盛会英伟达(NVIDIA)GTC 大会正在火热举行。今日,英伟达创始人兼 CEO 黄仁勋在 GTC 大会上与芯东西等全球媒体进行交流,回应中美摩擦对英伟达的影响、对中国 GPU 产品出口计划、Blackwell GPU 的定价与销售策略、台积电 CoWoS 供需情况等 20 个关键问题。
▲黄仁勋微笑聆听记者提问(芯东西摄)
英伟达最新发布的旗舰 AI 芯片 Blackwell GPU 为双芯设计方案,而上一代 H100、H200 是单芯片方案,在定价上不好做出直接的对比。黄仁勋强调说,不同系统会存在价格差异,相比只卖芯片,英伟达盯上的是整个数据中心的生意。
此外,据黄仁勋透露,在 HBM3E 竞争中严重掉队的三星已搭上英伟达这辆豪华巨轮——英伟达正在测试三星 HBM,并宣布将使用它。
这两天,GTC 大会肉眼可见地人气爆棚,圣何塞会议中心周围四处飘扬着英伟达 GTC 大会的道旗广告,街上到处都是佩带标志性英伟达绿 badge 的参会者。还有一些英伟达合作伙伴们花式助阵,比如宇树科技派出机器狗阵队,当街调戏美国本土狗;WEKA 别出心裁地在附近街边停靠了几辆吸睛的紫色汽车,汽车前盖上大字写着“现已获得 NVIDIA DGX SuperPOD 认证”。
▲GTC 会场附近路边停靠着吸睛的紫色汽车及广告标语(芯东西摄)
除了英伟达新品,黄仁勋还在接受媒体提问时分享了对 OpenAI 视频生成模型 Sora、OpenAI CEO Sam Altman 扩大芯片规模的计划、怎么预测 AGI 时间表、AI 是否会灭掉码农、如何回应 AI 芯片创企 Groq 的叫嚣的观点。
特别是与 Groq 的交锋,快演成反转电视剧了,昨天英伟达 GTC 主题演讲刚结束,以碰瓷科技大佬出圈的大模型推理芯片创企 Groq 就发文,指名道姓地硬刚英伟达表态:“依然更快”。今天 Groq 又追加一句“……而且也依然功耗更少”。
在媒体沟通会上,被问到对此事的看法时,黄仁勋回应说:“我真的不太了解,无法明智地作出评价……芯片的存在是用来实现这个软件的。我们的工作是促进下一个 ChatGPT 的发明。如果是 Llama-7B,我会感到非常惊讶和震惊。”
事情还没完,Groq 创始人兼 CEO Jonathan Ross 随即在社交平台上发文并晒出跟黄仁勋的合照:“我之前见过黄仁勋,他的团队本周专门更新了 GTC,以回应 Groq,所以对 Groq 不太了解似乎不太可能。也就是说,***Groq 运行 700 亿参数模型的速度比英伟达运行 70 亿参数模型的速度快。***体验一下:groq.com”
锋芒毕露的美国 AI 芯片公司们显然对 GTC 高度重视并紧密关注。
最近刚发布第三代晶圆级芯片的 Cerebras,今日在距离 GTC 展区步行不到 10 分钟的地方举办 Cerebras AI Day,在这里宣布“拥有 4 万亿颗晶体管的世界最快 AI 芯片 CS-3”、“选择高通在 AI 推理中提供前所未有的性能”、算力达 8EFLOPS 的 AI 超级计算机 G42 破土动工,并分享了晶圆级架构的核心、AI 能力鸿沟、GPU 挑战、大模型在大芯片上训练得最好、新的多模态大模型发布。
▲路过 Cerebras AI Day 会场(芯东西摄)
Cerebras 不忘发文踩一脚 GPU:“在 CS-3 上,与 GPU 相比,我们能够以数量级的性能优势进行大规模训练。但即便是我们最大的集群本身也是作为单个设备运行的……现在👏🏻鼓掌!”
以下是黄仁勋媒体沟通会 20 个问答(为方便阅读,部分问题及回答在尽可能不违背原意的前提下进行了精编处理):
一、中美摩擦,对英伟达的影响有多大?
1、中美紧张局势如何影响生产制造和系统?
黄仁勋回答说:“是的,有两件事我们必须做,一是确保我们理解并遵守政策,二是尽我们所能地增强供应链的弹性。”
世界供应链很复杂,他举例说,HGX 有 35000 个零件,其中 8 个零件来自台积电,其它中很大一部分来自中国,汽车和国防行业也是如此。
他相信各国的目标并不是对立的:“世界末日的情景不太可能发生,我希望这不会发生。我们能做的事情与弹性和合规性相关。”
2、英伟达与台积电的关系过去两年如何发展,包括芯片、封装以及 Blackwell 双芯设计?
黄仁勋称英伟达与台积电的合作关系是“业界最密切的合作关系之一”。英伟达做的事情很难,但台积电做得很好。英伟达有计算 die、CPU die、GPU die、CoWoS 基板,内存来自美光、SK 海力士、三星,在台湾组装。供应链并不简单。这需要大公司的协调,替英伟达做这件事。
“他们也意识到需要更多的 CoWoS。我们会全部解决的。”他谈道,跨公司协作是好的,你组装它们,另一家公司负责测试,再由另一家公司来构建系统,你需要一台超级计算机来测试超级计算机,制造层是一个巨大的数据中心。
“Blackwell 是个奇迹,但我们必须在系统层面实现它。人们问我是否像 SoC 一样制造 GPU,但我看到的是机架、电缆和开关,这是我对 GPU 的心理模型。台积电对我们至关重要。”黄仁勋说。
3、对于台积电,企业总是想要得到更多,能谈谈今年明年年英伟达的供需情况吗?比如今年英伟达的 CoWoS 需求是去年的 3 倍?
“你想要确切的数字,很有意思。”黄仁勋说,英伟达今年对 CoWoS 需求非常高,明年会更高,因为正处于 AI 转型的开始阶段——只有 1000 亿美元投入这一旅程,还有很长的路要走。
黄仁勋对台积电的增长非常有信心,称他们是很好的合作伙伴,理应成为现在的样子。他认为人们工作得非常努力,技术处在完美的位置。生成式 AI 正处于不可思议的位置。
4、英伟达新的网络技术计划出售给中国多少、能否告知中国在计算芯片上集成其他技术的具体倾向?
黄仁勋说:“我今年几乎没宣布过,有点贪心了哈。这是我们要宣布的。无论何时何地卖给中国,当然有出口管制,所以我们就会考虑这个问题。对于中国,我们有 L20 和 H20。我们正在尽最大努力为中国某些客户优化它。”
5、当云计算厂商纷纷开始自研芯片,英伟达正转向云业务,你怎么看这一现象?他们自研芯片会影响价格吗?英伟达在中国的云计算战略和解决方案是什么?
黄仁勋解答说,英伟达生产 HGX,然后卖给戴尔,戴尔把它放进计算机里,再卖出去。英伟达开发了在戴尔(设备)上运行的软件,创造了市场需求,来帮助销售这些计算机。
“我们与云服务提供商合作,将 NVIDIA Cloud 放到他们的云中。”他强调说,“我们不是云计算公司,我们的云叫 DGX Cloud,但实际上我们是他们云中的一员,我们的目标是把客户带到云上,让客户在这台机器上交易。”
“我们将培养开发者,我们将创造对云服务的需求。”他谈道,“这与任何人的芯片无关——英伟达是一家计算平台公司,必须发展我们自己的开发者——这就是 GTC 存在的原因。”
“如果我们是 x86 公司,为什么还要办开发者大会?”黄仁勋犀利发问,“开发者大会是干什么的?因为架构仍在被接受,它的使用是复杂的,我们还没克服,所以 DRAM 不需要开发者大会,互联网不需要开发者大会,但向我们这样的计算平台需要,因为我们需要开发者,这些开发者会感激英伟达在每个云上都无处不在。”
二、解释 Blackwell 定价:没想卖 GPU,数据中心才是追求
Raymond James 分析师估计英伟达制造每个 H100 成本约为 3320 美元,B200 成本约为6000 美元,GB200 解决方案成本远高于 80GB 内存的单芯片 GH100;一个 H100 售价2. 5 万~3 万美元,新 GPU 价格将比 H100 高出50%~60%。
不过英伟达并未公开其定价,这也是英伟达少见地没在官网直接列出 B200 的详情页,仅仅放出 DGX B200 和 DGX B200 SuperPOD 的介绍信息,Blackwell 架构介绍页面也还没有上线。
▲英伟达官网目录截图拼接(绿色部分为本届 GTC 大会发布新品)
这周在接受 CNBC 专访时,黄仁勋透露新 GPU 架构的研发预算大概是 100 亿美元,Blackwell GPU 的售价约为 3 万~4 万美元。对于这一问题,黄仁勋在今日的媒体沟通会上做了补充说明:
6、Blackwell 定价范围是多少?你之前提到每个 Blackwell GPU 价格是 3 万-4 万美元。还有 TAM,你想在 2500 亿美元 TAM 中占多大比例?
黄仁勋回复说:“我只是想让大家对我们产品的定价有大概的了解,并不打算报价——我们卖得不是芯片,而是系统。”
据他解释,Blackwell 对不同系统的定价不同,不仅是 Blackwell,系统还包括 NVLink,分区是不同的,英伟达会给每个产品定价,定价将一如既往来自 TCO。“英伟达并不制造芯片,英伟达构建数据中心。”黄仁勋强调道。
英伟达构建了全栈系统和所有软件,通过调试,使它具有高性能,构建数据中心。英伟达把数据中心分解成很多个模块,这样客户就能根据需求选择如何配置,自行决定买多少、怎么买。
一个原因是,也许你的网络、存储、控制平台、安全性、管理是不同的,所以英伟达和你一起分解所有的东西,帮你探索如何把它们整合到你的系统中,并有专门团队来提供帮助。
因此这不是买芯片,不是人们过去卖芯片的方式,是关于设计和集成数据中心的,英伟达的商业模式反映了这一点。
至于英伟达想在 2500 亿美元 TAM 中占多大比例?黄仁勋说,英伟达的机会不是 GPU 的机会,而是芯片的机会。GPU 市场与英伟达所追求的市场截然不同,英伟达正在追求数据中心。全球数据中心大约是 2000 亿欧元,这是其中的一个建筑。英伟达的机会是这 2500 亿美元的一部分,现在将会增长,AI 被证明是相当成功的,去年是 2500 亿美元,符合增长率为 20-25%,长期机会将会是 1 万亿~2 万亿美元,取决于时间表。
7、在构建像 Blackwell 这样的平台时,你是如何估计(客户)的计算需求的?目标基本上是增加计算,你如何考虑电力、效率和可持续性?
“我们必须弄清楚物理极限,达到极限,并要超越极限。”黄仁勋说,如何超越,是让事情变得更节能,例如,你可以用1/4 的功率训练 GPT。
Hopper 需要用 8000 个 GPU 的任务,Blackwell 只需 2000 个 GPU,相同时间只消耗更少能效。因为能效更高,可以挑战极限。能源效率和成本效率是首要任务。英伟达把从大语言模型生成 tokens 提速 30 倍,以此节省很多能源,即生产相同 tokens 所需的能源减少到原来的1/30。
8、除了 HBM 之外,怎么看待三星和 SK 海力士的生产?
黄仁勋调侃说:“这就像问台积电,除了代工,除了 GPU,你还喜欢英伟达吗?”
据他分享,HBM 是复杂的,附加值很高。英伟达在 HBM 上花了很多钱!
“我们正在测试三星 HBM,我们将使用它。”黄仁勋透露道,“三星是一个很好的合作伙伴。韩国是世界先进存储器生产量最多的国家。HBM 非常复杂,它不像 DDR5。这是一个科技奇迹。这就是它这么快的原因。HBM 就像逻辑,而且越来越复杂,越来越半定制化。”
他称赞 HBM 是一个奇迹,由于生成式 AI,整个数据中心的 DDR 已经成为过去,未来属于 HBM。
“三星和 SK 海力士的升级周期令人难以置信。我们的合作伙伴将与我们一起成长。我们将用 HBM 替换数据中心中的 DDR。能效提高了很多。”黄仁勋说,这就是英伟达让世界更可持续发展的方式——更先进的内存,更低的功耗。
9、英伟达 AI 代工厂与企业合作的整体战略和长期目标是什么?
黄仁勋说,代工厂的目标是制造软件,不是作为工具的软件,但别忘了,英伟达一直是一家软件公司。英伟达很久以前创建了两个重要软件,一个叫OptiX,后来变成了 RTX;另一个叫cuDNN,是一个 AI 库,我们有很多不同的库。
未来的库是一种微服务,不仅是用数学来描述,在 AI 中也有描述。这些库,英伟达叫 cuFFT、cuBLAS、cuLitho——未来它们将是NIM。这些 NIM 是一些超级复杂的软件,英伟达将其打包,所以你能访问网站来使用它,或下载它,在云上或者计算机、工作站上运行它。英伟达将使得 NIM 性能更好。
当企业运行这些库时,自定义操作系统会进行授权,授权费用为4500 美元/GPU/年,你可以在上面运行任意多的模型。
三、AI 芯片竞争对手公开挑衅,黄仁勋回击“真的不了解”
10、你对 Groq 这样的芯片创企有何评论,Groq 昨天发了一条推文,说要比你的“孩子”更快?
“我真的不太了解,无法做出明智的评价。”黄仁勋认为 token 生成很难,取决于你想要的模型,每个模型都需要自己特殊的分区方式。
在他看来,成为 Transformer 并不是所有模型的终结——每个 Transformer 都是相关的,因为都有注意力;但它们又都是完全不同,有些是前馈或 MoE(混合专家),有些 MoE 是 2 个专家,有些是 4 个,分工方式都是不同的,所以这些模型中的每一个都需要非常特殊的优化。
如果计算机太脆弱,被设计来做一些非常具体的事情,它就变成了一台可配置的计算机,而不是可编程的计算机。它不会让你从软件创新的速度中获益。
黄仁勋认为,不能低估 CPU 奇迹的原因——由于可编程,CPU 随着时间推移已经克服了主板上、PC 上这些可配置的东西。软件工程师的天才可以通过 CPU 来实现,如果把它固定到芯片中,那就切断了软件用户的芯片才华。它真正要做的是从两者中获益。
他说,英伟达已经找到了一种特殊的计算形式,采用并行流计算模型,具有容错性,性能非常好,并且可编程。有一个架构从 AlexNet 开始就存在了,贯穿了所有的模型,最终 Transformer 出现了,有一大堆变种,这些模型在状态空间、内存和体系结构中不断发展。
“我们能做出一个有水平的模型是很重要的。”黄仁勋说,“芯片的存在是用来实现这个软件的。我们的工作是促进下一个 ChatGPT 的发明。如果是 Llama-7B,我会感到非常惊讶和震惊。”
四、怎么看 OpenAI CEO 的芯片工厂网络计划?
11、Sam Altman 一直在和整个芯片产业的人充分谈扩大范围和规模。你跟他聊过吗?你怎么看他想做什么?这对你和英伟达有什么影响?
“我不知道他的意图,除非他认为生成式 AI 是一个巨大的市场机会,我同意。”黄仁勋说。
他从基本原理谈起,今天计算机生成像素、检索、解压缩、显示。人们认为整个过程只需要很少的能量,但事实恰恰相反。原因是每个提示词、每件事、每次你用手机,它都要传到某个地方的数据中心,以一种从推荐系统的角度来看有意义的方式获得一些响应,然后把它发回给你。
例如,假如每次问他一个问题,他都要跑到自己的办公室,而不是直接回答,这就很浪费时间和精力。他认为一起工作的方式应该是扩大 AI 生成。未来越来越多的计算将是生成的,而不是检索,一代代必须是聪明的,并且上下文相关。
“我相信,我想 Sam 也相信,几乎每个计算机上的每个像素,每次你与计算机交互时,都由一个生成式芯片生成。”他希望 Blackwell 和后续迭代能继续在这个领域做出很大贡献。
“如果每个人的计算机体验都是生成式的,我不会感到惊讶。但今天还不是这样。这是个很大的机会,我想我会同意这个问题。”黄仁勋说。
五、AI 替写代码,人类不用学编程了?
12、你之前说过没人需要学编程了,是在暗示人们不应该学习编程技能吗?
黄仁勋认为人们在学很多技能,像钢琴、小提琴这样的技能真的很难,并认为无论是数学、代数、微积分还是微分方程,人们应该尽可能多地学习这些技能。但对于成功者来说,编程技能并不是必不可少的。
“曾经有段时间,全世界很多大佬都在提倡,每个人都必须学习编程,因此你效率低。”他分享说,“但我认为这是错误的,学 C++ 不是一个人的工作,这是计算机的工作来让 C++ 起作用。”
在他看来,AI 已经对社会做出了最大的贡献——你不必是一个 C++ 工程师才能成功,只要做一个及时的工程师。例如,人类通过对话进行交流,我们需要学习如何提示 AI,就像在运动中提示队友获得你想要的结果一样,这取决于你想要做的工作、想要取得的高质量结果、是否寻找更多想象力,或者是否想在结果中更具体。根据不同的答案、不同的人,你会给出不同的提示。
“我相信AI 所做的第一件伟大的事,是缩小技术鸿沟。看看 YouTube 上所有的视频,都是人们创建 AI,而不是编写任何程序,所以我认为这很有趣。”黄仁勋说,“但如果有人想学习编程——请这样做。我们正在招聘程序员!”
六、给 AGI 设定时间表,是否害怕 AGI?
13、你之前提到 AGI 将在 5 年内实现,这个时间表还在吗?你害怕 AGI 吗?
黄仁勋略带回怼地回答道:“首先,定义 AGI。”他沉默了一会儿,接着说道:“我停顿了一下,是因为现在,正如我所说的,我确信每个人都很难做到这一点。我想让你具体定义一下 AGI,这样我们每个人都知道我们什么时候能到达。”
他直接表达出对此前新闻报道断章取义做法的不满:“每次回答这个问题,我都会指定 AGI 规范。但每次报道时,都没有人具体说明。所以这取决于你的目标是什么。我的目标是和你交流。你的目标是弄清楚你想讲什么故事。”
“OK,所以我相信 AGI,正如我所指出的,可能在 5 年内,AGI,也就是通用智能,我不知道我们是如何互相定义对方的,这就是为什么我们有这么多不同的词来形容彼此的智力。”他谈道。
在黄仁勋看来,预测我们何时会看到一个通用的 AGI,取决于如何定义 AGI,需要明确 AGI 在问题中的具体含义。
他举了两个例子,比如定义圣克拉拉在哪里,它的位置很具体;再比如定义新年,尽管所处时区不同,每个人都知道新年什么时候到来。
但 AGI 有些不同。黄仁勋说,如果我们将 AGI 指定为具体特定的东西,比如一个软件程序做完一组测试成绩可以达到优秀(80% 以上),比大多数人甚至比所有人都好,你认为计算机能在 5 年内做到这一点吗?答案可能是肯定的。
这些测试可以是数学、阅读、逻辑、学术、经济测试以及律师资格、医学预科考试等。
14、未来我们的生活如何随着大语言模型和基础模型而改变?
黄仁勋认为,问题是我们如何拥有自己的大语言模型。
“有几个方法可以做到,一开始,我们认为你不断微调,但微调很耗时,然后我们发现了提示调优,发现了长上下文窗口、工作记忆。我认为答案是所有这些因素的结合。”他谈道。
在他看来,未来你只用调整一层权重就能微调。你不需要调整所有的,只需像 LoRA 一样微调一层。低成本微调、提示工程、上下文、记忆存储,所有这些一起构成你的定制大语言模型。它可以在某个云服务里,也可以在你自己的电脑。
15、软件最大的增长机会在哪儿?是微服务吗?
黄仁勋说,英伟达最近的机会是两种类型的数据中心计算,一个是关于数据中心的现代化计算,另一个是数据中心的新提示生成。
英伟达这样做是想帮助客户制造 AI。Llama、Mixtral、Grok……很多团队创造了 AI,但这些 AI 很难使用。基础模型是原始的,不好用。
英伟达将创建其中的一些,然后选择一些主流的开源合作伙伴,并将这些模型转化为产品质量的可用模型。它还需提供服务,比如 NeMo。
“我们不只会发明 AI,还要制造 AI 软件,这样每个人都能使用它们。我们的软件大约是10 亿美元运行率,我认为制造 AI 肯定能做相当多的事。”黄仁勋说。
16、一些关键任务要求 100% 正确,AI 幻觉问题可以得到解决吗?
黄仁勋认为,幻觉是可以解决的,只要确保答案得到充分研究。
他谈道,添加一条规则,对于每个答案,你都必须查找答案,这就是RAG 检索增强生成。如果你做一个查询,它应该先做搜索,不会编造一个答案并输出,而是优先考虑最准确地回答内容,然后反馈给用户。这个 AI 如果很重要,它不只是回答你,会先做研究,确定哪个答案是最好的,然后总结。这不是幻觉,是一个研究助理。这也取决于临界情况——更多的护栏或及时的工程。
对于关键任务的答案,例如健康建议或类似问题,黄仁勋认为,可能检查核对多种资源和已知的事实来源才是前进的方向。
17、你谈到用生成式 AI 和模拟来大规模训练机器人,但很多东西不好模拟,尤其当机器人走出建筑环境时,你认为模拟会有什么限制?当我们碰到这些限制时应该怎么做?
黄仁勋说,有几种不同的方式来思考这个问题。首先是构建你对大语言模型的想法。请记住,大语言模型是在一个不受约束的、非结构化的世界中运行的。这可能是个问题,但它从中吸取了很多教训。大语言模型的泛化能力是神奇的,然后通过迭代或通过提示来获取上下文窗口。
例如你要在厨房里做煎蛋卷,只有你才能具体说明问题,指定背景、你能用的工具,描述机器人的环境,这个机器人应该能够有效地泛化。
这是机器人的 ChatGPT 时刻。仍有一些问题需要解决,但可以看到推断。这一切都可以产生 token,这些 token 在机器人看起来像这样前就已经生成了。机器人学对软件是有意义的。软件不懂其中的区别,只是个 token。所以你必须组织所有的姿势,将所有输出标注化,概括环境,输入上下文,加强人类反馈,给它一大堆适当的问答例子,在哲学、化学、数学中的适当答案。
其中一些在页面中进行了描述。你可能需要 1 万多个大模型示例才能做出 ChatGPT。我们的大脑可以区分文字和机器人动作之间的区别,计算机只能看到数字,它不知道这些东西的区别。
18、关于电脑游戏,去年你说每个像素都会被生成、渲染,你认为我们离这个每个像素都以实时帧速率生成的世界还有多远?你对游戏/非游戏的愿景是什么?
黄仁勋认为几乎所有的技术,S曲线都不会比技术长。一旦它变得实用和更好,就像 ChatGPT 一样,我想用不了 10 年的时间。在 10 年时间里,你是另一种专家;5 年后,事情在实时变化,一切正在发生。所以你只需要决定我们在这方面走了多远。现在大概是 2 年了。在接下来的5-10 年里,情况基本上就是这样。
19、您曾说过很多行业都将迎来 ChatGPT 时刻,能挑个令你兴奋的讲讲吗?
黄仁勋说,有些让他兴奋的是技术原因,有些是因为第一次接触,有些是因为影响。
“我对 Sora 非常兴奋,OpenAI 做的很棒,去年我们在自动驾驶公司 Wayve 上看到了同样的情况,你也看到了我们所做的一些例子,差不多两年前,关于从作品中生成视频。”他谈道。
为了生成视频,模型必须了解物理,所以当你把杯子放下时,杯子是在桌子上,而不是在桌子的中间。它有感受力。它不必遵守物理定律,但它必须是明智的,理解所有的物理定律。
其次,黄仁勋认为英伟达对 Earth-2 气候数字孪生云平台的生成式 AI 模型 CoreDiff 所做的工作对预测2-3 公里范围内的天气有巨大影响。英伟达使其能效提高了 3000 倍,同时速度提高了 1000 倍,可以预测极端天气下的飞行路线,在混乱天气的情况下,可以更频繁地采样,采样 1 万次。这个例子得到最可能答案的能力有很大提升。
第三,在分子生成、药物发现方面所做的工作,在具有目标蛋白质非常理想的特性的可药物分子中。可以把它放在像 AlphaGo 这样的强化学习循环中,生成各种分子与蛋白质的连接,进而探索巨大的空间。这是非常令人兴奋的。
20、请深入谈谈你对药物发现、蛋白质结构预测和分子设计的看法,这对其他领域有何影响?
黄仁勋说:“我们可能是最大的不制造量子计算机的量子计算公司。我们这样做的原因是因为我们相信它,我们想在这里,我们只是认为没有必要再建立一个。”QPU 是一个加速器,就像 GPU 一样,用于一些非常特定的事情。
英伟达打造了 cuQuantum,来模拟量子计算机。可以有 34-36 个量子比特。人们用它来模拟量子电路。我们可以做后量子加密,让世界为量子做好准备,因为当量子到来时,所有数据都被正确地编码、加密。英伟达可以为所有人做出贡献,与世界上大多数量子计算公司合作。黄仁勋相信还需要一段时间才能带来突破。
对于数字生物学来说,NIM 的敏感性来源于数字生物学。BioNeMo 是英伟达的第一个 NIM。这些模型太复杂了,所以英伟达想用一种特殊的方式来封装它们,以便所有研究人员都能使用。BioNeMo 在很多地方都得到了应用。输入一对化学蛋白,它会告诉你结合能是否有效;或者发送一种化学物质,并要求它产生其他化学物质。
附:黄仁勋 15 分钟演讲干货信息实录
现场媒体沟通会分为两部分。在进行媒体问答前,黄仁勋先做了 15 分钟的单人演讲。期间,黄仁勋特别提到对 OpenAI 视频生成模型 Sora 的看法,并从对生成式 AI 趋势、AI 编程的见解,聊到英伟达重点产品线的技术规划和布局逻辑,包括新架构 Blackwell 的革命性进展、Omniverse API、系统模块化设计等。
以下是黄仁勋 15 分钟演讲精编:
行业正同时经历两个转型:一是从通用计算到加速计算;二是生成式 AI 新工具出现。
生成式 AI 被一些人称作数据中心。一个标准数据中心有文件,而生成式 AI 产生 token,它生成的浮点数会变成文字、图像、声音。
未来,这些 token 将是蛋白质、化学物质、动画机器、机器人。如果计算机能说话,为什么它不能像机器人一样移动呢?
生成器是一个新的类别、新的行业,这就是为什么说新工业革命正在发生。这些房间、建筑被称作 AI 工厂。上一次工业革命,投入水和燃料,产生电。现在进入 AI 工厂的是数据,输出的是 token,token 可以分布到全世界,纳入公司成本、运营费用、资本支出。
在新世界,软件非常复杂,越来越大,需要很多不同的东西。今天它通过文字、图像、视频、强化学习、合成数据,通过像 AlphaGo 一样的辩论来学习。随着时间推移,这些模型会变得越来越复杂,它会学习很多方法。
黄仁勋着重分享了3 个突破:
1、节能省钱:英伟达为万亿参数的未来创造了全新一代计算,由 Blackwell 实现。Blackwell 非常高效节能。以训练 GPT-MoE-1.8T 参数模型为例,H100 是 90 天 15MW 电力,而 Blackwell 是 4MW,节省了 11MW。“我们降低了这项工作量。”黄仁勋说这节省了很多很多的能源、很多很多的钱。
2、AI 生成:游戏玩家总将 GPU 看作一个生成式引擎,生成图像和像素。你看到的所有图像都是由最大的 GPU 生成的。未来,图像、视频、文本、蛋白质、分子都将由 GPU 生成。GPU 从图形生成发展到 AI 训练、AI 推理,现在是 AI 生成。我们几乎所有的计算经验都将在大量产生,一切都将被预记录、个性化生成。未来一切都将被创造出来,而这需要一个特殊的处理器。英伟达打造了 Blackwell,有第二代 Tranformer 引擎、下一代 NVLink、多 GPU 并行。
3、软件:未来,软件是 AI,你只要跟它说话,就能进行互动,非常易用。API 如此自然,可以将很多 AI 连接在一起。英伟达打造了 NIM 微服务,把它们连在一起,让公司可以用现成的、定制的。NeMo 服务可帮助客户定制 NIM,这被称作 AI 代工厂。英伟达拥有实现该目标的技术、专业知识、基础设施,这就是代工厂,英伟达可帮助每个公司来构建定制 AI,把 AI 技术推向世界。
在黄仁勋看来,对于下一波 AI 浪潮,AI 必须理解物理世界。
“我们从 OpenAI 看到了一些革命性的、令人惊叹的 AI,叫作 Sora。当 Sora 生成的视频是有意义的,汽车停在路上转弯,一个沉思的人走在街上有倒影,显然 AI 理解这一点,理解物理定律。”他解释说,“如果我们把它发挥到极限,那么 AI 就能在物理世界中行动,这就是机器人技术。”
因此,下一代需要新的计算机来运行新的机器人、新的工具 Omniverse、数字孪生,必须开发新的基础模型。英伟达以技术平台而非工具制造商的身份进入市场。企业可使用 Omniverse API 来创建数字孪生。黄仁勋对于该任务的成功感到非常高兴,称连接到这些工具是“超级充电”。
Blackwell 是芯片的名字,也是计算机系统的名字。英伟达有一个沿用之前版本的 x86 系统,叫 HGX,你可以把 Hopper 的托盘拉出来,然后把 Blackwell 推进去。由于支持生产的基础设施已经存在,生产转换和客户增长将变得容易得多。
英伟达也有 DGX,液冷新架构,可以创建大型 NVLink 域,支持在一个域中采用 8 个 GPU,即 16 个 die。如果想打造更大的机器,英伟达有 Blackwell 和 Grace Blackwell 超级芯片的堆叠版本,以及 NVLink Switch。
黄仁勋说,NVLink Switch 是“世界上性能最高的交换机”,是非常模块化的,很受欢迎。