HPC融合AI,为什么这家上海高校做到了?
发布时间:2019-07-16 13:02来源: 网络整理近年来,围绕 AI 技术的国际竞争正愈演愈烈。为了抢占先机,设立 AI 专业成了各大高校顺应科技发展趋势的重大举措。为帮助高校推进 AI 技术领域的人才培养、研究开发和成果转化,才云科技打造定制化 HPC 集群平台管理系统,支持国家科技建设。
某高校是由上海市人民政府和中国科学院共同举办的一所“小规模、高水平、国际化的研究型、创新型”大学。它借鉴了世界一流理工科大学的发展经验,从理工科入手培养各科专业人才,推进研究成果在各行业落地。
作为人工智能高校联盟的倡导者之一,为更好地进行 AI 学科建设,进一步巩固学校在计算机视觉、自然语言处理、深度学习、图形学等领域的优势,该高校联手才云科技,为高性能计算(HPC)集群打造了一套平台管理系统,为提升集群计算效率、提高资源利用率、降低成本提供了极大支持。
AI 学科建设需从 HPC 起步
高校 HPC 集群是一种为学校密集型科研任务提供高性能计算支持的计算硬件,通常计算速度要达到每秒万亿次级。作为科学研究不可或缺的计算工具,它在研究领域有着广泛的应用和巨大的影响力,也是衡量一所学校科研实力的重要指标之一。
自建校以来,该高校依托高性能 HPC 集群,已在物理、化学、生命科学等领域实现巨大科研进展。而随着 AI 研究的逐步展开,考虑到 AI 研究离不开庞大的数据、精确的数据标记和数十倍于一般科研项目的计算量,学校对用 HPC 集群支撑深度学习任务,促进 AI 与 HPC 的融合提出了更高的要求。
同时,为了承担更多国家级、地级科研课题,加快进行学科建设和人才培养,一些可预见的长期问题,如计算资源部署、使用现状与日益增长的科研任务需求之间的矛盾也亟需得到重视:
物理资源管理零散。该高校在浦东浦西建有两个数据中心,各数据中心内的机器配置不一,共有 8 个集群、124 台服务器、近 300 块 GPU、大量 CPU 及内存资源。虽然规模庞大,但这些资源缺乏有效的统一管理工具,存在计算资源过于分散、缺乏高效统筹机制的问题;
资源申请不规范。为满足各学科科研需求,学校一般都有针对 HPC 集群使用的完善申请、使用手册。但该高校的资源申请流程仍过于繁琐,缺乏自动化的资源申请、分配工具。当申请人提交申请后,计算资源需要依靠人工手动分配,无法实现即租即用,整个过程耗时耗力;
资源利用率低。该高校的服务器资源只能以整机的方式分配给各教研室,例如一台服务器有 6 块 GPU,当某个 AI 任务只需使用 5 块 GPU 时,申请人会被分到一整台服务器,如此分配方式往往导致资源使用不饱和,造成浪费;
资源回收困难。任务结束后,由于需要人工手动清理机器遗留数据,该高校的 HPC 集群也存在资源回收不及时、机器时常处于闲置状态的问题。
才云:构建 HPC 集群平台管理系统
针对该高校 HPC 集群的使用现状,才云科技基于自研智能容器云平台 Caicloud Compass 和人工智能云平台 Caicloud Clever,打造了一套定制化的 HPC 集群平台管理系统。
新系统实现了计算资源的池化管理和机器资源的逻辑化分配,并依靠对底层高性能计算资源的科学管理,大幅提升了深度学习项目的分布式训练能力。
助力学科建设,创建深度学习平台方案
为了让高校 HPC 更好地承担 AI 科研项目,才云科技在 HPC 集群平台管理系统中集成了深度学习平台方案,能为高校数据管理、模型构建、模型上线提供一站式便捷服务。
具备深度学习全流程工程化管理能力。HPC 集群平台管理系统集数据导入、数据处理、模型开发、模型训练、服务上线、模型管理等功能于一体,可有效支持语义分析、仿真模拟、图形渲染等深度学习科研项目,帮助高校简化项目流程、加速项目开展进度。
集成 infinib网络。infinib网络是用于 HPC 的计算机网络通信标准,具有极高吞吐量和极低延迟的特点,既可用作服务器与存储系统之间的直接或交换互连,也可用于存储系统之间的互连。考虑到深度学习对计算速度的苛刻要求,HPC 集群平台管理系统集成 infinib网络,为 AI 项目运算速度提供保障。
集成并行存储系统。在 HPC 中,传统 NFS 存储在集群不断增加时易出现存储瓶颈,而才云科技集成的并行存储则可以把后端的多套存储阵列统一成一个大的存储,不仅保证了可靠性,读写性能和带宽也更出色,帮助高校显著提高运算效率。
构建资源池,统一管理物理资源