再有一点是一个非常有趣、但目前还只停留在趋势判断的预测:
未来的算力计费,很可能不会再主要按 Token 算,而是更接近按思考时长算——从算力供应商的角度看,这几乎可以被视为对英伟达的重大利好
过去的 LLM,本质上更像一个概率预测机。用户问 2+2 等于几,它预测出4这个符号出现的概率最高,因此回答 4。
这种回答方式非常像《思考,快与慢》里的系统1:快,但容易出现幻觉,因为它没有内建的逻辑校验机制。
黄仁勋这两年在不同场合反复提到一个方向:在推理阶段通过增加Test-time Compute——简单说,就是允许模型在给出最终答案之前,先在后台进行一段用户看不见的内心独白:拆解问题、检索资料、反思答案、必要时推翻重来。在这次 Rogan 的节目里,他同样强调:未来更多算力会被用在“多做一点 research、多反思一下答案是否可靠”上。
用卡尼曼的语言来比喻,就是:在原本几乎只有 System 1 的地方,人工插入了一层 System 2 式的慢思考。
这意味着,AI 即使在训练结束后,在回答问题的当下,依然可以通过消耗更多算力来临时提高智商。如果这种自省式推理成为主流,那么 AI 公司的收费模式和成本结构都会被重写:以前你问一个问题,AI 回答 100 个token,你付 100 个token的钱,算力消耗基本跟输出长度成正比;
在自省模式下,更接近这样一种情况——你问一个极其复杂的物理题,AI 最终可能只回答你一个数字“42”,但在输出这个“42”之前,它在后台进行了长达几十秒的逻辑推演,生成了上万个中间步骤的思维链,然后把过程丢弃,只留下一个结果。
推理成本将不再线性依赖于输出长度,而是更依赖于问题本身的复杂度。更像你聘请一位律师:你不是按他写在纸上的字数付费,而是按他为解决案件所投入的思考与研究时间付费。
这背后对英伟达的利好就很直白了:市场原本担心,一旦模型训练结束,对 GPU 的需求会明显下降,因为传统意义上的推理并不消耗那么多算力;
而通过 Test-time Compute,他向资本市场传递的是另一种路径:不仅训练需要巨大算力,推理本身也可以变成一个深不见底的算力池——只要每个 AI agent 在回答问题前都多想几秒、多查一点资料,全球推理端对 GPU 的需求就会被不断放大。
换句话说,AI 正在从一种“廉价的生成工具”,向一种“昂贵的解决问题服务”迁移。
我愿称之为英伟达阳谋!