更快更节能！谷歌称自家AI超算系统优于英伟达

目前，谷歌公司90%以上的AI训练工作都是通过谷歌自主研制的TPU芯片(Tensor Processing Unit)完成的。其AI训练的过程是：通过给模型输入数据，使其能够用类似人类的文本回应、并具备生成图像等功能。

现谷歌TPU芯片已经出到第四代(TPU v4)了。谷歌公司周二发布的一篇论文详细阐述了，该公司是如何利用自己定制的光开关将4000多个芯片组合到一台超级计算机中，从而帮助连接一台台独立机器。

改善芯片间的连接

由于ChatGPT、Bard等产品背后使用的大型语言模型的规模太庞大了，无法存储在单一芯片上。所以，这些模型必须分散在数千个芯片上，然后这些芯片必须同时工作，花费数周或更长时间来训练语言模型。

谷歌的PaLM是该公司迄今为止公开披露的最大的语言模型。其训练方式是：通过将其分配到两台各包含4000个芯片的超级计算机中，历时50天进行训练。

谷歌周二称，其超级计算机可以很轻松地在运行过程中重新配置芯片之间的连接，有助于避免问题并调整性能。

该公司的研究员Norm Jouppi和工程师David Patterson在上述论文中写道，“电路切换可以很容易地绕过故障组件…这种灵活性甚至允许我们改变超级计算机互连的拓扑结构，以加速机器学习模型的性能。”

研发新版本

据悉，初创公司Midjourney使用该系统来训练其模型，在输入几句文字后，模型就会生成新的图像。

此外，谷歌还暗示，正在研发一种新版本TPU，以期与英伟达H100芯片竞争，但没有提供细节。

（文章来源：财联社）

原文链接：http://finance.eastmoney.com/a/202304052683443020.html