鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

接近两个小时,正面回答关于英伟达一路在大模型时代涨到4万亿美元市值的种种问题。

黄仁勋在“硅谷最受欢迎播客”的全新访谈,信息量有点高。

视频发布半天,单在油管上的观看量已经超过10万+。

网友还锐评:很少看到黄仁勋这么激动。



太长不看版,重点笔记放在这里了:

更多细节,万字实录在此奉上(内含老黄激烈反驳)。

英伟达的护城河

(播客主持人Dwarkesh Patel提问以下简写为Q)

Q:软件公司正在经历估值暴跌,因为人们认为AI会使得软件变得廉价。一个可能显得天真的观点是:英伟达从根本上是在做软件,而制造由其他人完成。如果软件变得廉价,英伟达会不会也失去护城河?

黄仁勋:归根结底,必须有某种东西将电子转化为Token

这种从电子到Token的转化,以及时间让Token变得更有价值的过程,是很难变得同质、廉价的。

从电子到Token的旅程是如此不可思议。让一个Token比另一个更有价值,其中投入的艺术、工程、科学和发明是显而易见的。我们正在实时见证这一过程,而其中所涉及的一切还远未完全被理解,这一旅程远未结束。我其实对你所说的假设是否会发生持怀疑态度。

当然,我们会让这一过程更高效。你提问的方式正好是英伟达运营的精神模式:输入是电子,输出是Token。在这之间就是英伟达。

我们的工作是付出必要的努力,同时尽可能少地干预,以实现这种转化能力的最大化。所谓“尽可能少地干预”,意味着不是必须要我们做的事,我们就交给合作伙伴,让其成为生态系统的一部分。

今天的英伟达拥有最大的合作伙伴生态系统,包括上下游供应链、所有的计算机公司、应用开发者和模型制造者。

可以把AI看作一个五层蛋糕,我们的生态系统覆盖了每一层。我们尽可能做更少的事,但事实证明,我们不得不做的那部分难度异常巨大。我不认为这个部分会变得同质化。



实际上,我也不认为软件公司、工具开发者会失去护城河……如今大多数软件公司都是工具开发者。例如,Excel是工具,PowerPoint是工具,Cadence制造工具,Synopsys也制造工具。我和大家的看法正好相反,我认为Agent的数量将会呈指数增长,工具的用户数量也会呈指数增长。这些工具部署数量很可能会激增。

今天,我们受限于工程师的数量。但未来,会有大量Agent来支持工程师,以前所未见的方式去探索设计空间,而今天我们所使用的工具并不会被抛弃。

我认为工具的普及会使软件公司飞速增长。之所以还没有完全发生,是因为Agent在使用这些工具时还不够高效。要么这些公司自己会构建Agent,要么Agent会进化到能够高效使用这些工具。我认为两者会结合在一起。

Q:在你们最近的申报文件中,英伟达在代工厂、内存和封装等方面的采购承诺接近1000亿美元。SemiAnalysis说你们的相关采购承诺实际上达到2500亿美元。

有一种解释是,英伟达的护城河其实在于你们提前锁定了这些稀缺组件的供应链。这是否是英伟达接下来几年间最大的护城河?

黄仁勋:这是我们能做到但别人很难做的事情。

我们在上游做了巨大的承诺。有些承诺是显性的,比如您提到的这些采购合同。而有些承诺则是隐性的,例如很多上游的投资是由我们的供应链合作伙伴推动的,因为我会对这些厂商的CEO说:“让我来告诉你这个行业规模会有多大,让我向你解释原因,让我跟你一起推演,并展示我所看到的。”

通过这种方式,我不断地向不同领域上游产业的CEO们传递信息、激励他们并与他们达成一致。这样一来,他们愿意进行投资。为什么他们愿意为我投资,而不是其他人?因为他们知道,我有能力承接他们的供应,并通过我的下游销售出去。

事实是,英伟达的下游供应链以及需求规模非常庞大,他们愿意为此投资。

如果你参加过GTC,你会对它的规模和与会者数量感到惊讶。那是一个完整的360度全景,汇聚了人工智能的整个宇宙。大家聚在一起,因为他们需要彼此了解。我把他们聚集在一起,让下游能够见到上游,让上游能够见到下游,同时大家还可以看到人工智能的最新进展。最重要的是,他们还可以见到那些人工智能原生公司和初创企业,并亲眼目睹我告诉他们的一切。我把大量时间用于向我们的供应链、合作伙伴和生态系统直接或间接地传递有关未来机会的信息。

有人总是说:“黄仁勋,你的大多数主题演讲就是一个接一个的发布。”事实上,我的演讲中总有一部分很“折磨人”,几乎像在上课。我是故意的,我需要确保我们的整个供应链——无论是上游还是下游——都了解正在发生的变化,理解这些变化为什么会发生、何时发生以及规模多大,并能像我一样系统性地推理出来。

回到护城河的问题,我们正为未来做准备——如果未来几年我们的业务规模达到一万亿美元,我们的供应链已经为此做好了准备。如果没有我们的市场覆盖率和业务驱动力……正如现金流有其流通性一样,供应链也存在其流动性。如果没有足够频繁的业务流动性,就没有人会愿意建立供应链来支持架构上的扩展。我们能够承受这么大的规模扩展,是因为我们下游的需求非常庞大。而大家已经亲眼见证了这一点。这使我们能够以现在的规模去完成我们所做的一切。

Q:我想更具体地了解上游是否能够跟上需求。过去的几年中,你们的年收入不断翻倍,你们向全球提供的浮点运算能力(flops)增长更是超过了三倍。

黄仁勋:在现在这种规模下做到收入翻倍确实令人难以置信。

Q:确实如此。但当我们谈到逻辑芯片时,你们是台积电N3节点的最大客户,同时也是N2节点的主要客户之一。据SemiAnalysis预测,今年AI将占N3产能的60%,而明年将达到86%。在这种情况下,如果你们已经占据了多数产能,怎么继续实现翻倍增长?现在是不是处于这样一种状态:AI算力的增长率必须因为上游而放缓?你们是否看到了绕开这个问题的方法?我们如何让晶圆厂的产能每年增长1倍?

黄仁勋:从某种程度上来说,瞬时需求已经超过了全球上游和下游的供应总量。在任何时刻,我们都可能被“水管工”的数量所限制,这确实会发生。

Q:那明年的GTC大会应该邀请水管工们来参会(笑)。

黄仁勋:这个主意不错(笑)。但拥有超越行业供应能力的需求是好事。显然,情况相反的话就不妙了。如果供应和需求之间的差距过大,行业会迅速向缺口聚合。例如,你会发现,现在几乎没人再谈论CoWoS封装技术了。

Q:为什么?

黄仁勋:原因在于过去两年行业已经对此进行了大量投资,其规模甚至翻倍增长了几次。目前我们在这方面处于相当不错的状态。台积电现在知道,CoWoS的供应能力必须跟上逻辑芯片和内存的需求。他们正在把CoWoS和未来的封装技术扩展到和逻辑芯片同步发展的水平。这非常棒,因为曾经一段时间里,CoWoS和HBM内存技术还被视为一种“特种技术”。但现在它们已经成为主流计算技术。

当然,现在我们能够更广泛地影响供应链。AI革命的早期,我就已经在说我现在说的很多话了。当时,有些人相信并为此进行了投资,比如美光的桑杰(Sanjay)和他的团队。我对那次会议印象非常深刻,我清晰地阐明了为什么事情会这样发生以及对未来的预测。而他们真的加倍投入了,与我们在LPDDR和HBM内存领域建立了合作。这无疑为他们公司带来了巨大的发展。有一些人来的稍晚,但现在他们也都到场了。

我们对每一个瓶颈问题都给予了极大的关注。现在我们在提前几年预判这些瓶颈。例如,过去几年内我们与Lumentum、Coherent以及硅光子生态系统的合作投资,确实重塑了供应链。我们围绕着台积电建立了完整的供应链,在COUPE项目上与他们合作,发明了一堆新技术,并将专利授权给供应链以保持其开放性。

我们通过新技术、新工作流程、新检测设备以及投资,来帮助合作伙伴扩展产能。你可以看到,我们正试图通过生态系统的建构,确保供应链能够支持这种规模化的发展。

Q:看起来有些瓶颈比其他的更容易解决。将CoWoS扩展到更大规模可能相对容易——

黄仁勋:顺便说一下,我挑了最难的一个例子。

Q:哪个?

黄仁勋:管道工和电工。

这也是我对某些“末日论者”感到担忧的一点,这些人总是在描述工作被终结,岗位将消失的问题。如果我们劝人们不要做软件工程师,那我们将会面临软件工程师短缺的问题。

同样,十年前也有人做过类似的预测,那时一些悲观主义者说:“无论你做什么,都不要成为放射科医生。”你现在可能还能在网上找到那些说放射科医生这个职业会首先消失的视频。但现在发生了什么?我们恰恰缺少放射科医生。

Q:回到之前关于某些瓶颈更容易解决的问题。如何每年制造2倍的逻辑芯片?逻辑芯片和内存芯片的扩展受到极紫外光刻(EUV)的限制。如何做到每年2倍增长?

黄仁勋:这是可以快速扩展的。这些都不难,只需要需求信号。一旦你能够造一个,就可以造十个,接着就可以造一百万个。所有这些都很容易复制。

Q:你们会介入多深?会去和ASML沟通吗,告诉他们:“看看三年后的需求吧。为了让英伟达每年实现2万亿美元的营收,我们需要更多EUV光刻机。”

黄仁勋:有些我得直接开口,有些则是间接实现的。比如我说服了台积电,ASML自然会被说服。关键是我们必须考虑关键瓶颈。但只要台积电被说服了,几年内你就会看到足够的EUV设备。

我的观点是,没有哪个瓶颈会持续超过两三年。

与此同时,我们在提升计算效率方面也在取得巨大进步。例如,Hopper到Blackwell架构的效率提升达到30-50倍。因为CUDA的灵活性,我们能够开发出全新的算法。此外,我们在提高计算效率的同时也在增加产能。这些问题对我来说都没有那么值得担心。真正带来风险的是下游问题,比如限制能源扩展的政策。没有能源,你不可能建立一个工业;没有能源,你不可能建立一家新的制造企业。

我们要重塑美国的工业。我们希望带回芯片制造、计算机制造和封装工艺;我们希望建造新的东西,比如电动车、机器人;我们希望建造AI工厂。但你无法在没有能源的情况下完成这些,并且这些问题都需要很长时间去解决。相比之下,芯片产能的问题只需要2-3年即可解决。CoWoS产能扩展也是2-3年的事。

Q:很有趣。我觉得我邀请的嘉宾有时会表达完全相反的观点。在这种情况下,我欠缺技术知识来判断。

黄仁勋:好消息是你现在在和一位专家交谈(笑)。

TPU没有威胁,英伟达在“重新定义计算方式”

Q:我有一个关于竞争对手的问题。世界上排名前三的AI模型中有两个——Claude和Gemini,都是在TPU上训练的。这对英伟达未来意味着什么?

黄仁勋:我们构建的东西与TPU非常不同。

英伟达构建的是加速计算(Accelerated Computing),而不是仅仅一个张量处理单元(TPU)。

加速计算可以用于各种用途:分子动力学、量子色动力学、数据处理、数据框架、结构化数据和非结构化数据。它还用于流体动力学和粒子物理学。此外,我们也用它进行AI计算。

加速计算更加多样化。尽管今天大家都在谈论AI,并且AI的确非常重要且具有深远影响,但计算的范围远比这更广泛。

英伟达重新定义了计算的方式,从通用计算过渡到加速计算。我们的市场覆盖范围远远大于任何TPU或ASIC(应用专用集成电路)能够达到的水平。我们是唯一一家能够加速各种应用的公司。我们拥有一个庞大的生态系统,所以各种框架和算法都能在英伟达的平台上运行。

另外,大多数自建系统都不是为方便他人操作而设计的。我们的系统之所以无处不在,包括在Google、Amazon、Azure和OCI(Oracle云基础设施)上,是因为任何人都可以使用我们的系统进行操作。

如果你想通过租赁方式运营这些计算能力,你最好有大规模的、多行业的客户生态系统来消化这些资源。如果你想自用,我们显然也可以帮助你操作这些计算系统,比如我们为Elon Musk的xAI提供支持。而由于我们能够支持任何公司和任何行业的运营商,你可以将它用于打造专门用于科学研究和药物发现的超级计算机,比如Eli Lilly。我们可以帮助他们操作自己的超级计算机,用来加速药物发现和生物科学的整个多样化流程。

有大量应用场景是TPU无法覆盖的。英伟达把CUDA打造成一个出色的张量处理单元,但它也能处理数据处理、计算、AI等的整个生命周期。我们的市场机会更广,覆盖面更大。因为我们支持世界上所有类型的应用,你可以在任何地方建立英伟达系统,并确信它会有客户需求。这是一个完全不同的概念。

Q:接下来是一个长问题。你们的营收非常惊人,而这些钱并不是来自制药或者量子计算领域。之所以能有每季度600亿美元的收入,是因为AI是一种史无前例的技术,其增长速度也同样前所未有。

所以问题是,对于人工智能而言,究竟什么才是最合适的选择?我对细节不熟,但和我的AI研究员朋友交流时,他们说:“看看TPU吧,它是一个大型的行列式阵列,非常适合执行矩阵乘法,而GPU则非常灵活。GPU在有大量分支或非规则内存访问时表现优异。”

但AI本质是什么?它只是一次又一次地进行可预测的矩阵乘法。你不需要为warp调度器或线程和内存组之间的切换浪费任何芯片面积。而TPU确实针对当下AI计算的主要增长需求和用例进行了优化。我想知道你对此有何回应。

黄仁勋:矩阵乘法确实是AI的重要部分,但它并不是全部。如果你想开发一种新的注意力机制,以不同方式解耦,或者发明一种全新的架构,比如混合SSM(状态空间模型),你就需要一个通用可编程的架构。如果你想构建一个融合扩散模型和自回归模型,你也需要一个通用可编程的架构。我们可以运行你能想象到的一切。这是我们的优势:我们的架构让新算法的发明变得容易,因为它是一个可编程的系统

发明新算法的能力正是推动AI快速进步的真正原因。像TPU这样的设备同样受到摩尔定律的限制,增速约为每年25%。而唯一能实现10倍或100倍跃升的方法,就是从根本上改变算法和计算方式。

这是英伟达的核心优势。我们之所以能实现从Hopper到Blackwell 50倍的性能改进……当我第一次宣布Blackwell比Hopper的能效高出35倍时,没有人相信。后来Dylan写了一篇文章指出我其实“故意保守”了,实际是50倍。这根本不可能仅仅依赖摩尔定律来实现。我们解决这个问题的方法是通过新模型,比如MoE,在计算系统中并行化、解耦并分布式实现。没有CUDA的支持,要开发这样的新内核几乎是不可能的。

我们的优势在于,英伟达的架构具备编程灵活性,同时我们也是一家极具协同设计能力的公司。我们甚至可以将一些计算卸载到计算架构中,比如NVLink;或者集成到网络中,比如Spectrum-X。我们能够同时影响处理器、系统、架构、库和算法的各个环节。如果没有CUDA,我甚至不知道该从哪开始开发。

Q:这涉及到一个有趣的问题,即关于英伟达客户群的特点。目前,你们60%的收入来源于五大超级云服务商。在一个不同的时代,面对不同的客户——比如做实验的教授们,他们需要的是CUDA。他们无法使用其他加速器,只需要运行配备CUDA的PyTorch,并确保一切都可以顺利被优化。

但这些超级云服务商有足够的资源来编写自己的内核。实际上,为了获取他们特定架构所需的最后那5%的性能,他们必须这样做。Anthropic和Google已经转向他们自己的加速器,比如TPUs和Trainium。即使是使用英伟达GPU的OpenAI,也开发了像Triton这样的工具,因为他们需要自己的内核。从CUDA C++到cuBLAS和NCCL,他们拥有一个完整的独立栈,并且能够编译到其他加速器上。

在大多数客户可以并实际在构建CUDA替代品的情况下,CUDA是否仍然是让前沿AI领域依然选择英伟达的关键?

黄仁勋:CUDA是一个丰富的生态系统。如果你想在任何计算机上开发软件,首先选择CUDA绝对是聪明的选择。因为生态系统如此丰富,我们支持每一个开发框架。如果你想创建自定义内核…… 比如我们对Triton有巨大贡献。Triton的后端包含了大量英伟达的技术。

我们非常乐意帮助每个框架变得尽善尽美。市面上有很多很多框架,比如Triton、vLLM、SGLang,以及更多新兴的强化学习框架,比如verl和NeMo RL。关于后训练和强化学习,这片领域正在快速爆发式增长。所以如果要在一个架构上构建,基于CUDA是最明智的选择,因为你知道这个生态系统是强大且靠谱的。

你会知道如果出了问题,大概率是在你的代码中,而不是在底层那一大堆代码里。别忘了,当你在构建这些系统时,要面对的代码量是巨大的。当某些东西无法工作时,是你出问题了,还是计算机有问题?你会希望始终是你出错了,并且相信计算机的健壮性。当然,我们自己的系统也有问题,但它已经过深度的优化,你至少可以在这个可靠的基础上构建。这是第一点:生态系统的丰富性、可编程性和能力

其次,如果你是一个开发人员,在构建任何东西时,最重要的事情就是安装基础。你希望自己开发的软件能运行在很多其他计算机上。你开发的软件不仅仅是为自己构建的,还要给自己的团队甚至其他团队使用。如果你是一位框架开发者,英伟达的CUDA生态系统就是一个无价的硬件与软件宝库。

世界上部署了数亿英伟达GPU,每个云平台上都有它。A10、A100、H100、H200,各种L系列及P系列设备,种类繁多,形态各异。我们基本上无处不在。这种庞大的安装基础意味着,一旦开发完成,你的软件或模型就能在世界上任何地方运行,这种价值是不可估量的。

最后,我们在云平台上的普及率也让我们真正独一无二。如果你是AI公司或开发人员,不确定将与哪家云服务供应商合作,或者不确定在何处运行系统,英伟达的系统可以覆盖所有地方——包括直接在你们公司内部运行。这种生态系统的丰富性、安装基础的广泛性,加之灵活的部署模式,使得CUDA不可替代。

Q:这确实有道理。我感兴趣的是,这些优势对你们主要的客户来说是否依然显得那么重要。对于大部分产业中的用户,这可能非常重要。但对于实际上能够构建自己软件栈的客户——这类客户占你们收入的大头,尤其在一个AI越来越强大的世界里……问题最终变成了:如果超大规模的企业都能编写自己的内核,而不是依赖CUDA,英伟达还能否维持目前的利润率?

黄仁勋:我们公司分配在这些AI实验室里的工程师数量是惊人的。

我们为他们持续优化他们的软件栈,原因在于没有人比我们更了解自己架构的复杂性与细节。

这些架构不像CPU那么“通用”。CPU就像一辆凯迪拉克,运行平稳,性能没有极端起伏,任何人都能很好地驾驶它。但英伟达的GPU和加速器更像一级方程式赛车。我可以想象每个人都能够以100英里/小时的速度驾驶这些GPU,但要真正跑出极限,就需要极高的专业知识。我们也使用大量AI来优化我们现有的内核库。

我很确定在未来很长一段时间内,我们的专业知识对于合作的AI实验室来说依然不可或缺。我们经常能够让他们的软件栈优化再优化,使性能提升1至2倍。有时优化一个特定内核,性能能直接提升2倍或3倍。这种提升对于运行大量Hopper或Blackwell设备的客户来说是非常重要的,因为它们直接增加整个设施的效率,相应地提高客户的收入。

毫无疑问,英伟达的计算软件栈在性能总拥有成本(TCO)方面是世界上最优的。没有任何单个平台可以提供比我们更高的性能-TCO比例。基准测试就在那里,我鼓励TPU或Trainium使用InferenceMAX、MLPerf来展示他们所谓惊人的推理成本优势,但没人愿意出来展示。从第一性原理来说,这根本不合理。

我认为我们之所以如此成功,原因很简单:我们的总拥有成本(TCO)非常出色。

其次,你提到我们60%的客户来自五大云计算公司,但是其中大部分业务其实是面向外部客户的。

他们之所以选择我们,是因为我们拥有强大的客群覆盖能力。我们能为他们带来全球最出色的客户。这些客户选择英伟达,是因为我们特有的广泛覆盖与多功能性。

我认为飞轮效应来自几个方面:我们的安装基础,我们架构的可编程性,我们生态系统的丰富性,以及大量AI公司的存在。

现在有成千上万家AI公司。如果你是这些AI初创公司之一,你会选择哪种架构?你会选择全球最普及的架构——那就是我们。你还会选择拥有最庞大安装基础的架构——那也是我们。还有一个拥有丰富生态系统的架构——这也是英伟达独有的优势。

所以,这就是飞轮所在。我们成功的核心原因包括:

第一,性能与成本的优势。我们的每美元性能非常出色,客户的成本最低。

第二,能效优势:我们的每瓦性能是全球最高的。如果一家公司建造了一个1GW的数据中心,这个数据中心必须能够带来最大化的收益和尽可能多Tokens,这直接转化为收入。而我们拥有全球每瓦Token最多的架构。

最后,如果你的目标是出租基础设施,我们拥有全球最多的客户。

Q:有趣。我认为问题的关键在于市场结构到底是什么样的。也许会存在这样一个世界,有成千上万家AI公司,它们的计算量份额大致相等。但从五大云服务商的角度看,实际上使用这些计算资源的是Anthropic、OpenAI,以及有能力自己构建各种加速器的大型基础模型实验室。

黄仁勋:不,我认为你的假设是错误的。

Q: 也许吧,但让我问你一个稍微不同的问题。

黄仁勋:不,让我纠正你的假设。

Q:好。让我换个问题问你。

黄仁勋:但仍要保证让我纠正这个假设。因为这对AI太重要了,对科学的未来太重要了,对行业的未来也太重要了。这个假设……听我说——

Q: 让我先完成问题,然后我们可以一起探讨这个话题。

黄仁勋:好的。

Q: 如果关于价格、性能和每瓦性能等这些指标是真的,那么你怎么看这样一件事情?比如说,Anthropic最近刚刚宣布,他们与博通和谷歌达成了一份多吉瓦级别的TPU计算协议,他们的大多数计算都是通过TPU完成的。

显然,对于谷歌来说,TPU提供了主要的计算资源。而根据我的观察,这些大型AI公司,似乎他们的大部分计算资源……曾经是完全依赖英伟达的,但现在不是了。所以,如果这些参数数据在纸面上都是真的,你怎么看这些公司仍然选择其他加速器的情况?

黄仁勋:Anthropic是一个特殊案例,不是一个趋势。如果没有Anthropic,TPU还会有增长吗?完全靠Anthropic支撑。如果没有Anthropic,Trainium会有增长吗?完全也是靠Anthropic。这里不是说有大量的ASIC机会,而是只有一个Anthropic。

Q: 但是OpenAI和AMD之间的合作……他们正在自研自己的Titan加速器。

黄仁勋:是的,但是我们都可以承认,OpenAI的主要计算依然依赖英伟达。我们仍在大量合作。

我并不介意其他公司尝试使用不同的东西。如果他们不试试这些产品,他们怎么会知道我们的有多好?我们也需要被提醒,必须不断努力,才能维持我们今天的地位。

总是会有夸大的说法。但是,看看过去被取消的ASIC项目数量。要做出比英伟达好的产品并不容易。其实也并不明智。当然英伟达肯定会有遗漏的地方,在我们的规模和速度上,我们是唯一一家每年都在大幅度推动技术跃升的公司——每一年。

Q: 我想他们的逻辑可能是:“嘿,这些产品不需要更好,只要不比英伟达差70%就可以了”,因为从你们这买要支付70%的利润。

黄仁勋:别忘了,即使是ASIC,利润率也非常高。假设英伟达的利润率是70%,ASIC的利润率也接近65%。你到底省了多少?

Q:你是指博通?

黄仁勋:是的。你总要给某家公司支付费用。从我所了解的数据来看,ASIC的利润率非常高。他们自己也这么认为,并且惊人的ASIC利润率感到自豪。

很久以前,我们并没有能力做这样的事情。当时,我并没有深刻意识到,建立一个像OpenAI或Anthropic这样的基础AI实验室是多么困难,他们需要供应商做出巨大的投资。我们当时无法提供数十亿美元的投资让Anthropic使用我们的计算资源,但谷歌和AWS可以。他们在早期投入了巨额资金,使Anthropic最终使用了他们的计算资源。而当时我们没法做到。

我的失误在于没有深刻认识到AI实验室们别无选择,风险投资公司永远不会向一个实验室投资50-100亿美元。不过即使我明白这一点,我认为当时我们也无法做到。好在我不会再犯同样的错误了。

我很高兴能投资OpenAI,并帮助他们扩展。我也很高兴后来Anthropic找到我们时,我们能够投资支持他们。过去我们做不到,如果能重来——如果当时的英伟达有我们今天的规模——我将十分乐意这么做。

英伟达为什么不做超级云服务商?

Q:这确实很有意思。多年来,英伟达一直是AI领域赚钱最多的公司。现在你们在进行投资,据报道,你们已经向OpenAI投资了高达300亿美元,向Anthropic投资了100亿美元。而现在,他们的估值已经显著增长,我相信它们还会继续增长。

所以,在这些年里,你们一直为这些公司提供算力,你们能看到它们的发展方向。几年前,甚至就在一年以前,他们的估值仅是现在的十分之一,而当时你们手头有充裕的现金。按理说,有一种可能是,英伟达自己可以打造一个基础研究实验室,进行巨额投资让这一切成为可能,或者在高额估值之前更早完成你们现在所做的交易。我很好奇,为什么不早点做呢?

黄仁勋:我们在能够做到的时候就马上做了。如果更早具备条件,我也愿意更早去做。但当Anthropic需要我们这么做的时候,我们并不具备条件。这在当时对我们来说也不是一个合理的选择。

Q:为什么?是因为资金问题吗?

黄仁勋:是的,投资规模的问题。那时我们从未对外部公司进行过投资,尤其是这么大规模的投资。当时我们没有意识到这是必要的。我一直认为他们可以像其他公司一样去找风投融资。但他们想要实现的目标并不是通过风投就能完成的。OpenAI想要实现的目标也无法通过风投达成。我现在认识到了,但当时并不了解。

不过这也是他们的聪明之处。他们早就意识到必须这样做。我很高兴他们当时做出了这样的选择。尽管这导致了Anthropic不得不去找别人,但我仍然为他们存在而感到高兴。Anthropic的存在对于世界来说是件好事,我真心为此感到欣喜。

Q:当然,你们仍然赚了很多钱,而且每个季度赚得越来越多。

黄仁勋:即便如此,仍然可以有遗憾。

Q:那问题依旧存在——现在你们手头有大量资金,并且一直赚更多的钱,你们应该用这些资金来做什么?一个答案是,一个中间商生态系统正在崛起,他们使得这些研究实验室将资金性开支转为运营性开支,以便这些实验室可以租用计算资源。芯片非常昂贵,但它们在生命周期内能产生巨大的价值,因为AI模型正变得越来越强大。英伟达有足够的资金来承担这样的资本性开支。实际上,据报道,你们为CoreWeave提供了多达63亿美元的支持,并向其投资了20亿美元。

那么,为什么英伟达不自己成为一家云服务商,自己租赁这些计算资源?

黄仁勋:这是公司哲学问题。英伟达应做“必须做的事,但越少越好”。这意味着,我们正在构建计算平台的工作是这样的:如果我们不去做,我真心相信就不会有人去做。

如果我们不像现在这样构建NVLink、不像现在这样构建整个技术栈、不像现在这样建立整个生态系统,如果我们没有在过去20年里坚持建设CUDA——那段时间大部分都是亏钱的——如果我们没有做这一切,就不会有人去做。

如果我们没有创建所有CUDA-X库,使它们面向特定领域……十多年前,我们开始着眼于领域专用的库。我们意识到,如果我们不创建这些库,无论它们是用于光线追踪、图像生成还是早期AI的发展,那么数据处理、结构化数据处理、向量数据处理这些技术都不会存在。我们甚至为计算光刻创建了叫做cuLitho的库。如果我们不创建它,也不会有人来做。所以,如果我们不做这些工作,加速计算不会取得今天这样的进展。

所以,这是我们必须做的事。我们应该全力以赴,竭尽所能去完成这件事。然而,世界上有很多云服务商,我们不做也总会有人出现。英伟达遵循的理念是做“必须做的事,但越少越好”,一切都是以此为核心的。

关于云服务,如果我们不支持CoreWeave这样的“新型云服务商”存在,那么这些AI云公司就不会存在。如果没有我们的支持,CoreWeave根本无法存在。我们不支持Nscale,它们也不会走到今天。如果没有我们的支持,Nebius也不会达到今天的水平。而现在,它们发展得非常好。

Q:为什么你不去挑选赢家?

黄仁勋:首先,这不是我们的责任。其次,英伟达刚刚创立时,有60家从事3D图形业务的公司。最后,只有我们活了下来。但如果你当时问那60家公司哪家能活下来,英伟达很可能会被列为最不可能的那一个。

当时,英伟达的图形架构完全搞错了。不是有一点错,而是彻底错了。

我们设计了一种开发者完全无法支持的架构。它永远不可能取得成功。我们本着正确的第一性原理去推导,但最终得出了错误的解决方案。

当时,所有人都会把我们排除在竞争名单之外。然而,看看我们现在的样子。

因此,我深知,要怀有足够的谦逊。不要去挑选赢家。要么让他们自己竞争,要么支持所有人。

Q:我有一点没听懂。你说英伟达并不优先支持新型云服务公司,但又列举了很多新型云服务公司,并说“如果没有英伟达的支持,它们就不会存在”。这两个说法怎么兼容呢?

黄仁勋:首先,它们需要有生存的意愿,并且主动来寻求我们的帮助。

当它们渴望存在,并且有自己的商业计划、专业技能和热情时——显然它们必须本身具备一些能力。但最终,它们需要一些投资来站稳脚跟,而我们会为它们提供支持。越早启动它们的飞轮效应越好。

你的问题是,“我们想做金融投资方吗?”答案是否定的。融资是别人的领域,我们更愿意与所有从事融资业务的人合作,而不是自己去当金融家。我们的目标是专注于我们擅长的领域,让我们的商业模式尽量简单,同时支持我们的生态系统。

比如,当OpenAI需要规模高达300亿美元的投资时,我们会出手帮助他们。世界需要他们的存在。世界渴望他们的存在,我也希望他们存在。他们现在有着强劲的增长势头。我们会支持他们并帮助他们扩展。这种投资我们会去做,因为他们需要我们。但我们并不是试图做“尽可能多的事情”,而是“尽可能少”。

Q:这个问题可能显而易见,但我们多年来一直处于GPU短缺的状态,现在随着模型的进步,供需缺口似乎更大了。

黄仁勋:没错,GPU目前仍然供不应求。

Q:是的。英伟达以一种独特的方式分配稀缺资源,并非单纯的价高者得,而是更多地考虑“我们希望这些新型云服务公司能存在”,因此分配一些资源给CoreWeave、Crusoe,以及Lambda之类公司。英伟达为什么会采取这种方式?你同意这样的市场描述吗?

黄仁勋:不,不,你的前提就是错的。我们在这些事情上非常谨慎。

首先,如果你没有下订单,那么再多的讨论也是没用的。在我们收到订单之前,我们实在无能为力。所以第一步是:我们和所有人一起努力做好需求预测,因为这些东西需要很长时间才能生产出来,而数据中心的建设也需要很长时间。我们通过预测来协调供需,这是第一步。

其次,我们尽可能和更多人一起进行需求预测,但最终还是要实际下订单。也许由于某种原因,你没有下订单,那我们又能做什么呢?在某个时间点后,遵循的是“先到先得”原则。不过,如果你的数据中心还没准备好,或者某些组件还没就绪,无法让数据中心启动运行,我们可能会优先服务其他客户。这只是为了最大化我们自己的工厂产能利用率,我们可能会做一些这种调整。

除此之外,优先级就是“先到先得”。你需要下订单。如果你不下订单,那就真的无可操作。当然,这可能演变成一些故事,比如之前报道提到拉里·佩奇、马斯克和我共进晚餐,请求获得GPU。那完全不是真的。我们确实一起吃了顿饭,那是一次非常愉快的晚餐。但他们绝对没有乞求GPU。他们只需下订单就行了。一旦订单下来了,我们会尽全力满足他们的需求。这件事情并不复杂。

Q:好吧,所以听起来就是有一个队列。如果你的数据中心准备好了,并且订单在某个时间下达了,那么你会按顺序得到交付。但听上去这仍不是出价最高者就能优先获得。为什么采取这样的策略呢?

黄仁勋:我们从来不这样做。

Q:好吧。

黄仁勋:我们从来没有。

Q:为什么不把东西卖给出价最高的人?

黄仁勋:因为这是糟糕的商业行为。你定好价格,然后让人们决定是否购买。我知道芯片行业的其他公司在需求很高时会调整价格,但我们不会。我们从来没有这样做过。你可以依赖我们。我更希望成为行业的基础,不需要客户反复猜测。如果我们给了你一个报价,那就是最终价格。如果需求暴涨,那就让它暴涨吧。

Q:另一方面,这也是为什么你和台积电有良好合作关系的原因,对吗?

黄仁勋:是的,英伟达和台积电合作即将满30年了。我们之间甚至没有签过法律合同。有些事情总体上讲求公平,有时候我占便宜,有时候吃亏。但总体来说,我们有着极好的关系。我可以完全信任他们,完全依赖他们。

你可以相信英伟达的是:每一年,都可以期待我们带来的进步。今年是Vera Rubin,明年是Vera Rubin Ultra,再之后是Feynman,再下一年可能是尚未命名的新产品。每一年,我们都让你值得期待。放眼整个ASIC领域,你都很难找到另一个团队如此稳定,让单片成本每年下降一个数量级,同时保持高产的能力。

没有深度学习,英伟达也会做加速计算

Q:一个有趣的问题。假设你们已经占据了台积电3nm工艺的大部分产能,并且未来在2nm节点时也占据大多数。你是否认为,考虑到 AI 的需求如此之大,而前沿产能无法满足需求,你们可以回头利用7nm这样较老工艺节点的剩余产能,比如制造一个基于Hopper或Ampere架构的芯片,但结合现有的数值优化技术和你提到的其他改进?你觉得我们会在2030年之前看到这样的情况吗?

黄仁勋:没这个必要。原因是,每一代架构不仅仅依赖晶体管工艺制程。工程设计、封装、堆叠、数值优化,以及系统架构上的种种改进都大有作为。

如果遇到产能不足的情况,就回到较旧的工艺节点重新设计芯片……那需要的研发投入谁也承担不起。我们可以承担向前推进的投入,但承担不起回头的代价。当然,如果情形是……做个思想实验:如果有一天我们得出结论,“我们再也无法得到更多的前沿产能”,如果真到了那天,我当然会立刻选择回去使用7nm工艺。

Q:有人提出过一个问题,为什么英伟达不同时并行展开多个使用不同架构的芯片项目?

比如你们可以研发像Cerebras那样的晶圆级芯片,或者像Dojo那样的大型封装,甚至一个完全没有CUDA的设计。你们有足够的资源和工程人才,能够并行开展这些项目。那么,为什么还要把所有的赌注押在一个篮子里?

黄仁勋:哦,我们是可以做到。但问题是,我们没有找到更好的想法。我们可以尝试这些东西,但它们并没有更好。我们在模拟器里测试过所有这些方案,结论都很明确:效果更差。所以我们不会去做。我们目前专注的项目,正是我们最想做的。

当然,如果任务类别发生了重大变化——我指的不是算法,而是真正的任务需求变化,这取决于市场的形态——那么我们可能会决定增加一些其他的加速器。

例如,最近我们引入了 Groq,我们将其整合到CUDA生态系统中。我们之所以这样做,是因为如今Token的价值已经高得惊人,这么做可以给Token设定不同的价格。几年前,Token要么免费,要么不贵。但现在,客户越来越多样化,他们需要不同的性能表现。比如我们的软件工程师,如果我能提供更快响应的Token,让他们比现在更高效,我愿意为此买单。

这个市场是最近才出现的。我认为,我们现在可以基于响应时间来细分市场。这就是我们决定拓展帕累托前沿,并创建一个响应时间更快的推理细分市场的原因,尽管它的吞吐量较低。

在此之前,提高吞吐量一直更为优先。但我们认为,未来可能会出现一种场景:即便工厂的吞吐量较低,但由于高平均售价(ASP),也有意义。

这就是我们这么做的原因。但总体而言,从架构的角度出发,如果让我拥有更多资源,我会将这些资源投资于英伟达的现有架构。

Q:我觉得这种“高溢价Token”和推理市场细分化的想法非常有趣。

黄仁勋:是的,市场的进一步细化。

Q:好,最后一个问题。假设深度学习革命从未发生过,英伟达现在会做什么?

黄仁勋:加速计算——我们一直以来所做的事情。

我们认定摩尔定律正在放缓……通用计算在很多方面表现良好,但在许多计算任务上并不理想。

因此,我们将一种名为GPU的架构与CPU结合在一起,以加速CPU的计算负载。不同的代码内核或算法可以被卸载到我们的GPU上运行。结果是,你可以将一个应用程序的速度提高100倍、200倍。

这种性能可以用在哪里?显然是在工程和科学领域,比如物理学、数据处理、计算机图形学、图像生成等等。即使今天没有AI,英伟达依然会是一家非常庞大的公司。

这一点有着非常根本的原因,那就是:通用计算能力继续扩展的潜力基本上已经走到尽头。更进一步可行方式,是领域专用的加速器。

我们最早涉足的领域之一是计算机图形学,但还有许多其他领域,比如粒子物理和流体模拟、结构化数据处理,以及各种受益于CUDA技术的算法。

我们的使命一直是将加速计算带给全世界,推动那些通用计算无法实现的应用发展,帮助突破科学边界。一些早期的应用包括分子动力学、用于能源勘探的地震处理、图像处理以及计算机图形的方方面面,在这些领域,通用计算效率都太低。

如果没有AI,我会非常遗憾。但正因为我们在计算技术上的进步,深度学习被普及到世界各地。我们让研究人员、科学家、学生都可以通过一台PC或GeForce显卡做出令人惊叹的科学研究。这一承诺从未改变过,一点点都没有。

如果你看GTC,开场部分根本与AI无关。计算光刻、量子化学研究、数据处理,这些内容与AI无关,但依然非常重要。我知道AI很激动人心,但还有很多人在做不涉及AI的重要工作,而这些计算任务并不仅仅局限于张量计算。