人工智能

投资 AI 硬件：从 CPU 到 XPU

发布时间 2025 年 8 月 1 日

更新 2026 年 4 月 26 日

乔纳森·施拉姆

Securities.io 秉持严格的编辑标准，并可能通过审核链接获得报酬。我们并非注册投资顾问，本文亦不构成投资建议。请查看我们的会员披露.

投资人工智能硬件：一锤定音

人工智能有望成为过去几十年来我们的经济、生产系统和社会中最重要的变化，相比之下，互联网带来的根本性变化甚至可能显得微不足道。

这可能会导致整个类别的工作消失，包括司机、翻译、客户支持、网页设计师等。其他工作的需求可能会大幅减少，比如程序员、初级律师、诊断师等。

它还应该为许多其他任务创造大量附加价值和生产力，占主导地位的人工智能软件公司可能是第一批达到以前难以想象的市值的公司。

正因如此，资本市场和投资者对人工智能着迷，高度关注众多科技巨头在人工智能领域的进展，以及来自中国科技巨头的强劲竞争，例如如阿里巴巴和像这样的初创公司 DeepSeek.

把握人工智能热潮的另一种方式是遵循在每一次淘金热中都行之有效的策略：不要去淘金，而是卖掉镐和铲。对于那些恰好处于最佳销售人工智能优化硬件位置的公司来说，这无疑是奏效的，他们 Nvidia公司 (NVDA ) 将其游戏显卡转变为人工智能训练芯片，使其成为世界上最有价值的公司，市值已超过惊人的 4 万亿美元（点击链接查看有关 Nvidia 的完整报告).

由于人工智能需要非常特殊的硬件，与之前其他形式的计算任务大多不同，而且是一个巨大的商业机会，因此半导体行业目前正在竞相开发专门用于训练和运行人工智能程序的新型硬件。

尽管 Nvidia 可能仍是该领域的顶尖公司之一，但现在其他选择正在涌现，并可能为早期关注的投资者提供有趣的机会。

为什么人工智能需要专用硬件

许多小计算

人工智能的早期发展与其他程序一样，使用的计算能力主要集中在处理器（中央处理器，CPU）上。CPU 仍然很重要，但很快发现，对于目前大多数用于开发人工智能的方法而言，它们并非最佳选择。

神经网络和其他类似方法需要大量相对简单的计算，而不是单一的复杂计算。因此，许多小型芯片并行运行通常比在强大的CPU上运行效果更好。

这在很大程度上解释了为什么 GPU 能够迅速流行起来，因为显卡本质上就是设计用来并行执行数千个较小计算的。

当今的人工智能训练主要基于神经网络，这一概念获得了 2024 年诺贝尔物理学奖，我们当时在一篇专门的文章中详细介绍了这一奖项.

来源: 诺贝尔经济学奖

人工智能技术的第二次革命源于“Transformer”。它们解决了传统神经网络的无法有效处理长序列数据，这是任何自然语言的共同特征.

Transformer 于 2017 年由谷歌研究人员首次提出，它是当前 AI 容量爆炸式增长的根本原因。Transformer 是 LLM（大型语言模型）等 AI 产品的核心，ChatGPT 也在其中。

不同的要求

AI 工作流程中的一个重要区别是微调和推理，两者都有不同的硬件要求。

微调涉及基于特定领域数据训练模型，需要强大的计算能力和内存。这是一项技术性极强的任务，通常处于人工智能科学的最前沿。
推理专注于使用已经训练过的模型来生成输出，对计算能力的要求较低，但更加注重低延迟和成本效益。
- 人工智能专家通常会利用现有的模型来解决实际问题。

因此，虽然成本显然是人工智能微调/训练和推理/使用所关注的问题，但训练通常需要最好的硬件，而使用任务在选择最佳硬件选项时将更多地关注硬件成本和能耗。

CPU 与 GPU

中央处理单元 (CPU)：

CPU 是通用的，并非专门用于 AI 的硬件。然而，它们对于 AI 系统中执行指令和进行基本计算仍然至关重要。

大多数处理与人工智能系统最终用户接口的软件也将以 CPU 为中心，无论是个人计算机还是基于云的软件。

来源: Anandtech的

CPU 也可以用于非常简单的 AI，这种情况下并不需要专用硬件。尤其是在输出需求不是特别紧急，且 CPU 相对较慢的 AI 处理速度不成问题的情况下，这种情况尤其适用。

因此，具有小批量数据和计算的小模型在 CPU 上也能表现良好。由于 CPU 在普通计算机中的普遍存在，对于不愿意投资 AI 专用硬件的普通用户来说，CPU 也是一个不错的选择。

CPU 也非常可靠和稳定，使其成为无错误是重要标准的关键任务的理想选择。

最后，CPU 对于 AI 训练中的某些任务很有用，通常与其他类型的硬件协作，例如数据加载、格式化、过滤和可视化。

图形处理单元 (GPU)：

GPU 最初设计用于图形渲染，后来被设计用于并行处理，使其成为训练需要处理大型数据集的 AI 模型的理想选择。从 CPU 切换到 GPU，训练时间从数周缩短至数小时。

由于其广泛的可用性和 IT 专家使用它们的经验，GPU 是第一种被串联安装以扩大 AI 研究的计算硬件。

来源: Aorus

NVIDIA 开发的 CUDA（通用编程接口）也对 GPU 的成功起到了至关重要的作用。CUDA 是 NVIDIA GPU 的通用编程接口，它为游戏以外的其他用途打开了大门。之所以这样做，是因为一些研究人员已经在使用 GPU 来执行计算，而不是使用常见的超级计算机。

“研究人员意识到，通过购买这种名为 GeForce 的游戏卡，将其添加到您的计算机中，您基本上就拥有了一台个人超级计算机。

分子动力学、地震处理、CT 重建、图像处理——一大堆不同的东西。”

黄仁勋接受红杉资本采访时

如今，GPU 仍然是最受追捧的 AI 硬件类型之一，而 Nvidia 的产量几乎无法满足科技巨头建设千兆瓦级 AI 数据中心的需求。

这也是“超级 GPU 时代”的开始，Nvidia 最近发布了 GB200 NVL72.

这款硬件设计为出厂时即可作为单个大型 GPU 使用，无需连接多个小型 GPU。这使得它的性能远超之前打破纪录的 H100 型号。

来源: Nvidia公司

这也应该会更加节能，这一点至关重要，因为以人工智能数据中心的建设速度来看，人工智能行业可能先出现能源短缺，然后才出现芯片短缺。更高的计算能力和能源效率意味着更少的废热，这也暂时解决了过热问题。

硬件类型	最佳用例	速度	能源效率	灵活性
中央处理器	通用任务	低	高	非常高
GPU	人工智能训练和并行任务	高	中	中
TPU	张量运算和变换器	非常高	高	低
ASIC	单任务加速	非常高	非常高	非常低
FPGA	可重构的AI工作负载	中	中	高

ASIC 和 AI 硬件的兴起

专用集成电路 (ASIC) 是专门为特定计算任务设计的计算硬件，这使得它们比相对通用的 GPU 更加专业化。

因此，它们的灵活性和可编程性不如通用硬件。

一般来说，它们往往更加复杂，而且成本通常也更高，这既是因为其生产缺乏规模经济，也是因为定制设计的成本较高。

然而，它们在执行特定任务时效率更高，通常能够更快地产生输出，并且浪费的计算能力和能源更少。

随着该领域逐渐注意到某些计算并不理想地在 GPU 上完成，而是需要更专业的设备，ASIC 和其他 AI 专用硬件的利用率正在上升。

张量处理单元 (TPU)

TPU 由谷歌开发 (GOOGL ) 专门用于执行张量计算（与基于 Transformer 的微积分相关）。它们针对高吞吐量、低精度算法进行了优化。

来源: C#角

这使得 TPU 具有高性能、高效率和可扩展性，可用于训练大型神经网络。

TPU 具有矩阵乘法单元 (MXU) 和专有互连拓扑等特殊功能，使其成为加速 AI 训练和推理的理想选择。

TPU 为 Gemini 以及 Google 的所有 AI 应用程序（如搜索、照片和地图）提供支持，为超过 1 亿用户提供服务。

这种硬件类型可以显著加快神经网络的开发和运行速度，因为这些模型高度依赖于统计数据和大量的计算，所以偶尔出现的错误并不那么重要。

最适合 TPU 的终端用户任务包括深度学习、语音识别和图像分类。

神经网络处理器（NNP）：

神经处理单元 (NPU) 也被称为神经形态芯片，专门用于神经网络计算，旨在模拟人脑中的神经连接。它们有时也被称为人工智能加速器，尽管这个术语的定义不太明确。

NPU 还将通过突触权重整合存储和计算。因此，它可以随着时间的推移进行调整或“学习”，从而提高运行效率。

NPU 包括乘法和加法、激活函数、二维数据运算和解压缩的特定模块。

专门的乘法和加法模块用于执行与神经网络应用处理相关的操作，例如计算矩阵乘法和加法、卷积、点积等函数。

这种专业化可以帮助 NPU 仅用一次计算就能完成一项操作，而不是像通用硬件那样需要数千次计算。例如， IBM称NPU相较于GPU可大幅提升AI计算效率.

“测试表明，在功耗相同的情况下，某些 NPU 的性能比同类 GPU 高出 100 倍以上。”

由于这种能源效率，NPU 受到制造商的欢迎，它们被安装在用户设备中，它们可以帮助生成 AI 应用程序在本地执行任务，这是“边缘计算”的一个例子。（有关该主题的更多信息，请参见下文）。

目前正在探索多种创建神经形态芯片的方法：

利用早期的铁电性，这是一个仍然不太理解的现象。
采用钒或钛的活性基质.
使用忆阻器这是一种新型电子元件，可以以 1/800 的速度执行 AI 任务^th正常功耗.

A辅助的 P加工 U尼特 (XPU）

XPU将CPU（处理器）、GPU（显卡/并行处理器）和内存合并到同一个电子设备中。

来源: 博通

XPU 是一个广义的术语，涵盖了将所有硬件集成到独立单元中这一概念的许多变体，包括数据处理单元 (DPU), 基础设施处理单元 (IPU)和功能加速卡（FAC）.

XPU 被视为解决 AI 数据中心日益严重的一个问题，即子单元之间连接需求的不断增长，以至于数据滞后成为减慢计算速度的重要因素，甚至超过了可用的计算能力。

本质上，芯片（GPU、TPU、NPP 等）在等待数据的时间与实际工作的时间一样多。

该技术的领导者是 Broadcom (AVGO )，这我们在专门的投资报告中详细讨论了.

现场可编程门阵列 (FPGA)：

FPGA 是可编程处理器，相比更为僵化的 ASIC，其灵活性和可重构性显著提升。FPGA 可以针对特定的 AI 算法进行定制，从而可能提供更高的性能和能效。

来源: 微控制器实验室

灵活性是有代价的，因为 FPGA 通常更复杂、更昂贵、功耗更高。然而，它们仍然比通用硬件更高效。

这使得它们在某种程度上成为一种利基产品，其灵活性弥补了这些缺点。例如，机器学习、计算机视觉和自然语言处理都可以从 FPGA 的多功能性中受益。

高带宽内存 (HBM)：

定制人工智能中心硬件最重要的发展是在计算能力领域，长期以来，计算能力一直是构建更多计算能力以训练新人工智能的瓶颈。

然而，这些系统也需要高效的支持系统，其中内存是重要的组成部分。顾名思义，HBM 比传统的 DRAM 提供更高的带宽。

它是通过垂直堆叠多个 DRAM 芯片并通过硅通孔 (TSV) 连接来实现的。第一代 HBM 于 2013 年开发。

垂直堆叠节省了空间并减少了数据需要传输的物理距离，从而加快了数据传输速度，这是人工智能计算的必需条件。

HBM 的制造比 DRAM 更复杂且更昂贵，但性能和功率效率优势通常可以证明 AI 应用的更高成本是合理的。

人工智能数据中心基础设施：电源、冷却和连接

除了内存和算力之外，AI数据中心的辅助系统也至关重要。没有它们，数据流通速度不够快，芯片过热，或者电力供应不足。

这意味着，例如，Broadcom 连接硬件也从 AI 数据中心的建设中受益匪浅，冷却设备供应商等专业解决方案也受益匪浅，例如 Vertiv (VRT ) 或施耐德电气（SU.PA).

电力供应也可能成为一个问题，一些科技巨头正试图通过押注核能来解决这个问题，微软将于 2024 年率先采取行动，此后又有许多人效仿。

加上科技公司致力于降低人工智能的碳足迹，这将极大地有利于核能或可再生能源领域的公司，例如 Cameco公司 (CCJ ), GE维诺瓦 (GEV ), 第一太阳能 (FSLR ), 的NextEra (NEE ) 或布鲁克菲尔德能源合伙公司 (BEP ) （请点击链接查看每家公司的报告）。

新兴人工智能计算技术

量子计算

由于人工智能对计算能力的需求如此之大，该领域硬件的未来甚至可能无法与当前可用的硅片解决方案相提并论。

一种可能性是，量子计算可以比传统计算更有效地检测模式，研究人员已经探索过的东西.

量子计算作为一个整体，可以用于解决一些二进制计算几乎无法完成的特定计算。这最终可能会应用于人工智能，但首批商用量子计算机仍需几年时间才能问世，而大型量子网络的出现则更加遥不可及。

光电子

光子学使用光而不是电子来传输数据，其速度比电子设备快得多。

由于量子计算机通常以纠缠光子的方式传输量子数据，因此量子计算和光子学之间也存在很多重叠，并且第一个双量子光子芯片已经发布.

类器官

由于大多数人工智能在计算机中复制了大脑神经网络的功能，一些研究人员想知道我们是否可以使用……真正的脑细胞。

这是一个有趣的想法，尤其是一些研究表明，大脑实际上是一台有机量子计算机.

这种“计算机”被称为类器官，本质上是由在实验室中在计算机芯片上培养的神经元组成的。这些神经元会响应芯片刺激，自我组织树突和连接。

这项技术仍然很新，依赖于生物3D打印.

其它

我们在“十大非硅计算公司”，例如二氧化钒、石墨烯、氧化还原门控或有机材料。

这些技术都有望比传统的硅基计算技术更快或更省电。然而，它们仍然相对较新，至少在未来5到10年内，不太可能在商业规模上彻底改变人工智能领域。

云端人工智能和边缘人工智能：无障碍趋势

云AI

由于最强大的人工智能系统是由大型科技公司开发的，因此它们大多可以通过云端访问。对于人工智能专用硬件本身的访问也正变得如此。

这一趋势的领导者是芯织 (CRCW )，一家从云提供商转向使用 GPU 进行加密货币挖掘的公司，如今提供按需 AI 计算。

这使得 CoreWeave 成为新兴 AI 初创公司的关键合作伙伴，这些初创公司试图与科技巨头竞争，例如屈折人工智能以及 1.3亿美元GPU集群，由新一轮融资资助。

“两个月前，一家公司可能还不存在，而现在他们可能已经获得了 500 亿美元的风险投资资金。

对他们来说，最重要的事情就是确保计算的访问权限；只有获得访问权限后，他们才能推出产品或开展业务。”

Brian Venturo – CoreWeave 首席技术官

随着人工智能硬件领域的纯玩家对大型科技公司生产自己的 GPU、TPU、XPU 等变得警惕，并从客户演变为竞争对手，CoreWeave 等公司很可能会优先获得 Nvidia 和其他公司发布的最新硬件。

这种商业模式对于人工智能训练可能尤其重要，因为人工智能训练对计算能力的要求比仅仅使用已经训练好的人工智能要高得多。

边缘计算和人工智能电脑

人工智能计算快速发展的另一个案例是需要在现场完成人工智能系统的计算，尽可能接近现实生活情况。

对于那些在连接失败时或与云端来回延迟太慢时可能无法容忍与 AI 断开连接的系统来说，这是必须的。

一个很好的例子就是自动驾驶汽车，它有望离线理解周围的环境。

这种类型的计算称为边缘计算，并且从更高效、更低功耗的硬件中受益匪浅。

它可以提高人工智能的可靠性，并且随着模型变得更加高效，以 DeepSeek 的飞跃为例，它可能会成为未来更流行的人工智能部署模型。

出于同样的原因，人工智能电脑就像 Nvidia 最近推出的从长远来看，可能足以在本地运行许多 AI 应用程序，与始终连接到云 AI 相比，可以提高隐私和安全性。

结语

一段时间以来，AI硬件在某种程度上已成为GPU的代名词，因为显卡在AI训练方面比CPU等其他类型的硬件效率高得多。这为英伟达及其许多早期股东带来了巨额财富。

GPU，尤其是专注于AI的“超级GPU”，很可能在AI数据中心的构建中继续发挥重要作用。但它们最终将演变成日益复杂和专业化的系统的一个组成部分。

Transformer 操作将被发送到 TPU、负责 NPP 的神经网络，重复任务则发送到专用 ASIC 或重新配置的 FPGA。

同时，高带宽内存、先进的电信连接器和超高效冷却将使计算核心周围的所有辅助功能保持运行。

对于边缘计算和比大规模 LLM 更小的 AI，可能由一体式 XPU 驱动的本地计算可能会被科学家、自动驾驶汽车以及关注隐私或审查的用户使用，并可能使用开源 AI 模型。

可以肯定的是，在人工智能淘金热中出售人工智能硬件“镐和铲”所带来的利润还远未结束。

在 Nvidia 占据主导地位一段时间后，投资者可能希望通过将其 IA 硬件组合扩展到其他设计来分散风险，甚至可能扩展到将提供宝贵千兆瓦电力来运行世界上越来越大和越来越多的 AI 数据中心的电力公用事业公司。

相关话题：人工智能计算人工智能数据中心 AI硬件图形处理器投资人工智能热塑性聚氨酯 XPU

乔纳森·施拉姆

乔纳森是一位前生物化学家研究员，从事遗传分析和临床试验。他现在是一名股票分析师和金融作家，在其出版物《创新、市场周期和地缘政治》中重点关注创新、市场周期和地缘政治。欧亚世纪".

证券

投资 AI 硬件：从 CPU 到 XPU

人工智能

投资 AI 硬件：从 CPU 到 XPU

目录

投资人工智能硬件：一锤定音