谷歌新一代机器学习芯片采用液体冷却技术



今日谷歌举行了一年一度的I/O大会,会上谷歌揭开了新一代TPU(张量处理单元)的面纱:TPU 3.0。

为了满足硬件的高功率密度,专用集成电路(ASIC)将采用液体冷却技术——这是此技术第一次应用到搜索和广告大型公司中。公司预计将在几个月内开始大规模部署。

“这些芯片的功率非常高,以至于我们不得不首次尝试将液体冷却技术引入我们的数据中心,”谷歌CEO皮查伊表示。

皮查伊补充道:“我们将这些芯片安装在巨型吊舱中,每一个吊舱的功能都比去年的TPU强八倍,处理速度超过100petaflops. 这使我们能够开发出更好、更大、更精确的机器学习模型,帮助我们解决更复杂的问题。”

然而,谷歌并没有分享可以达到100petaflops的基准。最早的TPU应用范围非常有限,主要应用于机器学习推理任务,并不支持分支指令。TPU 2.0通过8个机架式机箱中的64个芯片来支持机器学习和执行,处理速度可以达到11.5petaflops。

“一直以来,我们都在提高我们的计算架构中投入了很多,” 皮查伊说, “新一代TPU升级了大众所能看到的我们所有的产品,且也面向于我们的云客户。”

每个TPU3.0 都有128GB的高带宽内存,是TPU2.0的两倍。遗憾的是,谷歌没有提供有关架构和液体冷却技术的更多细节。

根据在主题演讲中展示的TPU3.0主板照片来看,可能是对通过每个主板上的4个芯片进行直接冷却,冷却液输送到每个ASIC上方的铜冷却板上。

随着人工智能和机器学习的工作负载的增长,对高密度机架的需求越来越高,随之产生的大量热量将需要液体冷却系统来解决。

原英文链接:

http://www.datacenterdynamics.com/content-tracks/servers-storage/googles-latest-machine-learning-chip-to-use-liquid-cooling/100119.article

作者:Sebastian Moss 译:Yvonne Feng