Facebook的智能资讯新平台究竟是怎样一番景象其AI计算之力将如何引领未来信息时代的风潮
作为社交网络巨头,Facebook的应用和服务每月服务的用户多达27亿。随着近几年的AI热潮席卷而来,Facebook也开始把数据中心中的许多通用计算硬件逐渐切换为了性能、功耗、效率更好的专用硬件。
昨天(美国时间3月14日),Facebook公开介绍了自己的“下一代”AI模型训练硬件平台Zion,一并也介绍了针对另外两类计算的定制化ASIC芯片:用于AI推理的Kings Canyon,以及用于视频转码的Mount Shasta。这些新设计主要针对AI推理、AI训练、视频转码三类计算。
这些计算不仅负荷重、切换为专用硬件的提升明显,而且也是Facebook中快速扩大的服务类型。从当代AI硬件到下一代AI硬웨어,Facebook早就开始大规模部署AI模型用于业务中的计算,这些模型每天要进行超过一百万亿次预测以及超过六十亿次语言翻译。各种使用了AIservice帮助用户更好地进行日常沟通,也为他们提供了独特、个性化的使用感受。
自研的一套系统FBLearner管理了Facebook目前的大多数AImodel流水线。这套系统包含特征存储、训练过程管理和推理引擎管理等对应问题不同部分的问题解决方案。此外,基于“开放计算计划”(OCP)设计了一系列自己的硬件,这些与FBLearner配合作用,可以让开发人员们快速大批量地部署模型。
在解决当前紧迫的问题之后,Facebook继续集中精力研发,最终目标是创建一种面向未来的、高度可靠性的设计,它不仅要对供应商透明,同时也要能持续体现最大化运行效率离散化设计理念。而现在,他们正朝着这一目标前进,用Zion这样的下一代训练平台实现高效处理CNN/LSTM/稀疏神经网络等多种不同的神经网络模型。
Zion采用新的供应商透明OCP加速模块(OAM),允许自由搭载AMD/Habana/Graphcore/英特尔/英伟达等不同来源于OCP标准基础上的设备,以此来拓展机架内服务器之间相互连接能力,即使负载不断增加至极限,Zion仍然能够扩展并处理所有需求。在实际操作中,它分为三个部分:八路CPU服务器/OCP加速模块/可安装八个OCP加速模块主板,每个主板可以安装2个CPU;一个OCP加速器;四张主板和8个CPU组成一个8路服务器左边展示的是单台服务器右边展示的是含有8块加速芯片主板内部连接示意图显示系统内存与GPU解耦,可独立拓展,并且通过高速连接线做到高效通信平衡运算与数据访问利用总体内存容量,把经常访问数据放在加速器内存上,不频繁访问放DDR内存中,为提高速度考虑同时支持INT8及FP16精度模式
对于逐渐增加的人工智能学习负载,与之相伴的是人工智能推理负荷同样在迅猛增长。在这方面,FBCollaborates with Esperanto, Habana, Intel, Marvell and Qualcomm to develop scalable and deployable custom ASIC chips for AI inference. Kings Canyon chip can support both high-speed INT8 computation and higher precision FP16 computation.
The Kings Canyon chip is mounted on an M.2-specification circuit board; each Glacier Point v2 motherboard has six Kings Canyon chips installed; finally, two Glacier Point v2 motherboards combined with two single-server boards form a complete Yosemite server.
Similarly, Facebook's video transcoding ASIC chip Mount Shasta also adopts this configuration.
In summary, based on the diagrams provided by Facebook and their introduction so far, it seems that only the AI training platform Zion has been put into use while the AI inference chip Kings Canyon and video transcoding chip Mount Shasta are yet to be seen in real-life applications but there is great confidence in these designs from Facebook. In the future they will open up all of these designs under OCP principles to facilitate wider cooperation; together with current partners they will continually improve the whole system's hardware-software collaboration design.