互联网大会浪潮重磅发布更智能更高效的AI资源平台AIStation2.0
发布时间:2019-10-28 13:04来源: 网络整理摘要:10月18日-22日,第六届世界互联网大会在乌镇举行。本届大会主题为“智能互联开放合作——携手共建网络空间命运共同体”,5G与人工智能成为大会的两大焦点所在。大会期间,浪潮重磅发布人工智能资源平台AI Station2.0,将为客户提供更加智能的AI容器化部署以及更具效率的分布式训练。
浪潮在世界互联网大会发布AI资源平台AI Station2.0
AI Station是浪潮面向人工智能企业训练场景的人工智能开发资源平台,可实现容器化部署、可视化开发、集中化管理等,为用户提供极致高性能的AI计算资源,实现高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI场景及业务整合,有效打通开发环境、计算资源与数据资源,提升开发效率。
浪潮人工智能开发资源平台AI Station
AIStation2.0将在目前1.0版本基础上实现重大创新升级,全新支持当下最主流的Kubernetes容器引擎,可以更便捷地实现AI容器化部署并提供智能化任务调度,提高了集群资源利用率和深度学习训练性能。具体而言,AIStation2.0资源调度更亲和,可智能化实现最优节点分配策略;创新的GPU多维细粒度分配策略能够让多人同时使用单张GPU,并且可充分利用闲暇时间训练任务,最大化发挥计算资源的性能;训练数据分层缓存预读机制可大幅提高训练速度。此外,AIStation2.0还可支持IP粒度的单机和多机训练任务调度,并实现batch类型的训练作业的提交和稳定训练。
更具效率的分布式训练是AIStation2.0的另一重要特性。当前,随着数据的持续爆炸式增长以及AI模型复杂度的不断提升,AI训练集群规模也在随之不断扩大,人工智能领先公司开始部署超过千卡的大规模训练集群,分布式训练已经成为AI的重要发展趋势之一。AIStation2.0基于MPI-Operator进行了优化,使其支持TensorFlow、PyTorch、Caffe、MxNet框架的分布式部署,释放分布式训练潜在性能,多GPU训练加速比可达到90%以上。同时AIStation2.0实现了对单机和分布式训练的容错支持,系统能够很好的应对算法类错误、OOM错误、系统故障等。
浪潮今年重磅发布了元脑生态计划,在元脑生态中浪潮将与合作伙伴共享三大核心平台能力,包括AI计算平台、AI资源平台和AI算法工具平台。其中AIStation作为AI资源平台具备重要的作用,构建开放的AI创新生态,无缝对接行业ISV,赋能生态伙伴,兼容各AI应用和场景。目前AIStation已经聚合了包含百度、第四范式、英特尔、英伟达、VMware等数十家家企业的AI框架、模型和工具组件,已应用到互联网、通信、金融、交通、制造、医疗等场景中,成为生态丰富的人工智能资源平台。
编辑:Harris