烧数亿美元、耗上万颗英伟达 GPU，微软揭秘构建 ChatGPT 背后超级计算机往事！-脚本导航

> 自媒体 > （AI）人工智能 > 烧数亿美元、耗上万颗英伟达 GPU，微软揭秘构建 ChatGPT 背后超级计算机往事！

烧数亿美元、耗上万颗英伟达 GPU，微软揭秘构建 ChatGPT 背后超级计算机往事！

来源：CSDN

2023-04-04 09:32:56

543

管理

整理 | 苏宓

出品 | CSDN（ID：CSDNnews）

都说 ChatGPT 这种大模型研发是大公司之间的博弈，不仅仅是因为其要消耗的算力巨大，也是因为需要有强大的资金支撑。

那么，加入这场战局，究竟要花费多少钱？

此前，据 Techcrunch 报道，有人估算，运行 ChatGPT 的成本约为 100,000 美元每天，或每个月约耗费 300 万美元。在此之下，OpenAI 才找到了微软，寻求资助，共同探索人工智能的发展。

一直以来，这些传言并未得到准确的核实，众人只知晓 AI 大模型的运行成本非常高，却终不知道高到何种程度。

近日，微软在官方博客上连发两篇文章，分享了它对 Azure 的押注如何开启一场人工智能革命的历程，也揭晓了为 OpenAI 的 ChatGPT 提供算力构建基础设施的困难与挑战。微软透露，它将上万颗英伟达 A100 芯片连接到一起，并重新设计了服务架构，这使得 OpenAI 能够训练出越来越强大的 AI 模型，同时，也帮助自家解锁了 Bing、Edge 等工具的 AI 功能。据悉，这个项目已经花费微软数亿美元。

大规模的 AI 训练

当然微软押宝成功这些都是后话了，对于当时的微软而言，是一场摸着石头过河的未知探索之旅。相比现在可能看到的商业价值，那时的他们可谓是眼前一抹黑。

彼时的微软没有 OpenAI 所需要的东西，也不完全确定是否能在其 Azure 云服务中建造这么大的东西而不至于崩溃。

微软 Azure 高性能计算和人工智能产品负责人 Nidhi Chappell 称，这些突破的关键是学习如何在高吞吐量、低延迟的 InfiniBand 网络上构建、运行和维护数以万计共处一地的 GPU，并相互连接。

她解释说，这种规模甚至超过了 GPU 和网络设备供应商曾经测试过的规模。这是一个未知的领域。没有人确定硬件是否可以在这么大规模下运行，而不损坏。

为了训练一个大型语言模型，计算工作负载被划分到一个集群中的数千个 GPU 上。在这个计算的某些阶段（称之为 Allreduce），GPU 交换它们所做工作的信息。一个 InfiniBand 网络加速了这一阶段，在 GPU 开始下一块计算之前必须完成。

"由于这些工作跨越了数千个 GPU，你需要确保你有可靠的基础设施，然后也需要在后端拥有网络，这样你就可以更快地进行通信，并能够连续数周这样做"，Chappell 说道，“这不是你买了一大堆 GPU，把它们连在一起，就可以开始工作的。为了获得最佳的性能，需要有很多系统级的优化，而这是经过许多代人的经验总结出来的。”

系统级优化也包括能够有效利用 GPU 和网络设备的软件。

在过去的几年里，微软已经开发了这样的软件技术，提高了使用数十万亿个参数训练模型的能力，同时降低了训练和在生产中提供这些模型的资源要求和时间。

“微软及其合作伙伴也一直在逐步增加 GPU 集群的容量，增加 InfiniBand 网络，并看看他们能把保持 GPU 集群运行所需的数据中心基础设施推到什么程度，包括冷却系统、不间断电源系统和备用发电机”，Waymouth 在官方博文中写道。

今天，这种为大型语言模型训练而优化的 Azure 基础设施可以通过 Azure AI 超级计算能力获得，微软公司负责 AI 平台的副总裁 Eric Boyd 分享道。该资源提供了 GPU、网络硬件和虚拟化软件的组合，以提供推动下一波 AI 创新所需的计算。

英伟达才是背后的赢家？

随着基础设施的到位，微软现在正向其他人开放其硬件。为此，微软在另一篇博文中宣布加强和英伟达的合作，推出了使用英伟达 H100 和 A100 Tensor Core GPU 以及 Quantum-2 InfiniBand 网络的新虚拟机，其中最新推出的 ND H100 v5 VM，它支持按需大小不等的 8 到数千个 NVIDIA H100 GPU，这些 GPU 通过 NVIDIA Quantum-2 InfiniBand 网络互连。

据微软透露，这应该允许 OpenAI 和其他依赖 Azure 的公司训练出更大、更复杂的 AI 模型。

至此，也有不少人发现并调侃道，英伟达似乎成为了这场 AI 浪潮中最大的赢家。因为过去微软与 OpenAI 的合作创立的基础设施所投入的资金，大部分都进入了英伟达的口袋。

话说如此，但他们也都为 AI 的发展做出了重要贡献。在 3 月 16 日，微软将分享其在人工智能方面的下一步最新进展，而英伟达也即将在 GTC 大会期间透露更多关于未来 AI 产品的信息，CSDN 也将进一步跟踪报道，敬请关注。

参考：

https://www.bloomberg.com/news/articles/2023-03-13/microsoft-built-an-expensive-supercomputer-to-power-openai-s-chatgpt

https://azure.microsoft.com/en-us/blog/azure-previews-powerful-and-scalable-virtual-machine-to-help-customers-accelerate-ai/

https://news.microsoft.com/source/features/ai/how-microsofts-bet-on-azure-unlocked-an-ai-revolution/

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT到底有多智能？只用了一整天时间，就被我搞崩溃了！

2023-04-04 09:34

高元、叶明：ChatGPT横空出世，是风险还是机遇？

2023-04-04 09:31