深度学习HPC解决方案

深度学习的特点归结起来,最重要的核心就是矩阵预算,也就是浮点运算。深度神经网络由于层数多,结构复杂,节点数多,训练数据集大等特点,训练过程所需的时间特别长,通常以数日,数周,甚至数月来计算。计算型独立显卡(GPU)由于其计算单元数量大,并行处理能力强,可部署密度大等特点,几乎成为提高深度学习过程速度的一致选择。

1、方案背景

早在2015年,百度的首席科学家吴恩达博在和硅谷人工智能实验室主任亚当·科茨博士在Reddit上进行问答互动时就已经提到,深度学习的两个关键驱动因素是计算能力的提升和可获得的数据的增加,他认为深度学习的前沿正转移到高性能计算。

在高性能计算领域,GPU是不可分割的一部分,而作为GPU行业的龙头老大,NVIDIA是加速深度学习发展方面的先行者,多年来一直致力于开发深度学习软件、库和工具。为训练诸如图像、笔迹和声音识别等颇具挑战的应用程序并加快训练速度,目前的深度学习解决方案几乎完全依赖NVIDIA GPU加速计算。

同时NVIDIA GPU 特别擅长处理并行工作负载,可让网络提速10-20倍,从而将各个数据训练迭代周期从几个星期缩短为几天。实际上,GPU在仅仅三年内便将深度神经网络(DNN)的训练速度提高了50倍,预计未来几年还将提高数十倍。因此结合了GPU技术的高性能计算无疑是深度学习发展的最好伙伴。


景派科技丨超算丨HPC     

2、解决方案

基于分析我们得出,深度学习计算对两点的要求较高,单精度浮点计算要求以及显存要求。结合景派科技多年来的经验,我们为客户提供针对化专业化的解决方案。

景派科技高性能应用集群针对深度学习领域主要有以下的特色

(1)CPU+GPU异构协同计算

利用CPU进行复杂逻辑和事务处理等串行计算,利用GPU完成大规模并行计算,即可以各尽其能,充分发挥计算系统的处理能力。

(2)CPU+GPU集群工作模式

每个节点内采用CPU+GPU异构模式,并且每个节点可以配置多块GPU卡,节点内采用高速InfiniBand网络互连,后端采用并行文件系统。采用数据划分、任务划分的方式对应用进行并行化,适用于大规模数据并行计算。

(3)使用NVIDIA推出的Tesla平台

NVIDIA推出的Tesla平台中,实现了全球最快计算节点的全新GPU架构,其采用PAascal架构,拥有最高的计算性能,在扩展性实现了GPU互连,实现了最大可扩展性,同时将计算和内存整合封装在一起。比如Tesla P100 NVLink能够可扩展到多个GPU上运行应用程序的超大规模和高性能计算数据中心。Tesla P100,拥有3840个FP32单精度、1920个FP64双精度CUDA核心、主要面向高性能计算领域。

景派科技丨超算丨HPC 

深度学习HPC架构


3、方案优势: 

(1)应用分析

拥有一支专业化的HPC应用分析团队,可以针对客户应用,运用测试工具得出具体的硬件平台需求,从而帮助提为客户提供针对性的高性价比HPC解决方案。

(2)GPU资源的有效利用

当每个节点都搭载GPU显卡时,高性能集群就会拥有充足的计算资源,但有利有弊,正因如此经常会出现资源的浪费。因此为了避免计算任务之间出现冲突而导致任务失败或计算时间延长,计算任务会通过资源可用情况排队。

(3)任务的优先级管理

在使用高性能集群的时候,经常会遇到一些紧急的任务需要马上计算。而我们的优先级管理的功能能够保证当资源不足,紧急项目或任务可以获得更高的优先级从而提前执行。

(4)并行能力

高性能计算集群拥有很多节点,因此效率最好的计算方法就是多节点的并行计算。景派科技的高性能计算集群采用公认的计算方法,支持多种MPI和网络协议。

(5)高性能的GPU显卡

我们搭建的高性能计算集群上根据用户的实际需求都搭载了NVIDIA的显卡,从GTX 1080Ti到Tesla V100,多种多样的GPU显卡,不同的配置和显存,总有一款能适合您。

景派科技丨超算丨HPC