DCN 学院派丨智能无损DCN,释放AI算力巅峰
发布时间:2020-03-27 16:44来源: 网络整理人类社会正在进入数字经济增长周期。根据华为GCI调研结论,数字经济的增长率是全球经济增长率的2.5倍,数字经济的投资收益率为非数字经济的6.7倍,当数据成为驱动经济增长的核心生产要素,谁掌握领先“数据基础设施”才能赢得未来!我们知道,数据流动起来才能产生价值,而数据中心网络就是数据流动的管道。那么,什么样的数据中心网络才能让数据高效地流动起来,这就是本文的出发点。
企业数字化转型升级
AI点石成金
人类社会的发展在经历了农业时代、工业时代后,随着信息化技术的发展,终于迎来了数字经济时代。据Gartner调研,75%的大型企业已经将数字化转型作为企业核心战略。与农业经济关注土地和劳动,工业经济关注资本和技术截然不同,数字经济的核心生产要素已经转变为数据和智能。企业数字化转型过程中产生大量的数据,已经成为企业核心资产的一部分,然而数据本身不是目的,知识和智慧才是永恒的价值。通过AI从数据中挖掘智慧,实现数据的商业价值变现,成为当前企业数字化转型的主题。AI成为企业重塑商业模式、提升客户体验和开创未来的关键推动力。+AI,标志着企业数字化转型进入了智能化新阶段。
过去的几年来企业对AI的采用率爆发式增长,据华为GIV(Global Industry Vision)预测,到2025年大企业对AI的采用率将达到97%。作为企业数据金矿的炼金术,AI点石成金,成为企业数字化转型到智能化升级成败的关键。AI技术的大量使用,驱动企业数据中心使命发生颠覆性变革。
企业数据中心迈入AI时代
释放AI算力是关键
企业智能化升级驱动数据中心从云时代迈入了AI时代。相比而言,云数据中心更像是个业务支撑中心,以应用为中心,通过云平台实现IT资源的快速发放。而AI数据中心在云数据中心基础上真正演进成为商业价值中心,以数据为中心,聚焦于如何基于AI对数据进行高效处理。
AI驱动DC重构
随着数据中心AI时代到来,算力作为AI三大关键要素之一,需求更加旺盛和多样化。算力贵、算力不足,已经成为时代挑战,更高算力的GPU、AI芯片相继涌现。而另一方面,由于网络丢包的原因导致昂贵的算力在实际应用中不能有效的发挥。如果说衡量一个云数据中心的关键指标是业务发放的效率,那么衡量AI数据中心的关键指标就是AI运行效率。
如何提升AI数据中心的运行效率?
充足AI算力是前提。我们知道,深度学习的神经网络算法突破引爆了新一轮的AI浪潮,而深度学习需要到巨大的算力支撑,比如一次语音识别的AI训练涉及到20E(1E=1018次方)次的浮点计算,而谷歌机器翻译算力需求量达到103E,即便用全世界最高性能的超级计算机Summit来计算,也需要较长的时间。保证有充足的算力成为提升AI运行效率基本前提,以AWS、华为等为代表的公有云厂商领导者正在采用x86/ARM CPU,GPU,NPU构建业界最高性能的算力池。
释放算力是关键。以深度学习为特征的AI计算也依赖海量的数据的输入(无论是AI训练样本算据还是AI推理涉及到原始算据的输入)。装载算力的GPU/AI服务器只有获得完整算据后才能进行AI处理,否则只能空闲等待,因而数据的存取速度将直接影响算力的发挥。比如根据AWS公开数据显示,公有云训练实例P3采用100GE的优化网络,要比25G的TCP网络在Mask R-CNN训练中性能提升5倍;而在推理实例G4中,利用100GE优化网络,RestNet50模型推理性能提升4倍,Bert-Base模型推理性能提升多达34倍。同样算力条件下,如何保证算力100%释放甚至更为关键。
AI数据中心架构重塑
0丢包的无损网络成为基本诉求
当前的云数据中心建设基本思路是采用虚拟化技术对IT资源池化管理,通过Software Defined Everything思路完成资源的统一的按需自助/自动化发放,最终实现Everything as a Service的云化服务形态。而为了满足数据中心充分释放AI算力从而使得AI高效运行的诉求,面向AI时代的数据中心架构正在重塑。业界提出构建以全闪存存储数据湖为核心,以GPU/AI多样化计算为算力底座的AI时代数据中心架构,越来越得到广泛认可。
AI数据中心架构