HPC小课堂丨什么是高性能计算集群?

2021-04-06 13:14:19 景派科技-市场部 42

什么是集群?

单台服务器的,一般分类,被视为一个计算节点,更具体地讲,添加了GPU加速卡的单台服务器,也可以被视为GPU计算节点,下面将会进行讨论。

那么,什么是集群?集群本质上是相互连接在一起的计算机系统的集合,以提供先进而强大的交钥匙解决方案,以允许并行处理计算作业,例如深度学习培训,AMBER分子动力学模拟,甚至使用一些较旧的CPU计算软件(例如LAMMPS)。

但是,我们可以将集群分为五个部分:

1)机柜
2)管理节点
3)计算节点
4)存储节点
5)网络交换



如果对HPC集群感兴趣
可以致电景派科技,方案咨询热线:4008351355



机柜

机柜是外部容器/机箱/机柜,用于容纳机架式服务器,交换机,PDU和内部组织的电缆。机架的大小可以从24U升到48U(“ U”或通常称为“ RU”是定义可装入机柜的服务器“高度”的度量单位。)

图片关键词


景派科技通常建议使用42U机架,因为其占用空间与半机架相同,并允许将来扩展更多系统以添加到集群中。

图片关键词


管理节点

管理节点(通常称为登录节点或头节点)是集群的主要协调器。这是一个高度可用的系统,提供单个系统即可登录,因此学生,研究人员可以为其项目登录,运行与安排工作。

管理节点如何工作的,很大一部分是基于安装的集群管理软件,如Bright Cluster Management Software或通常简称为“ Bright”。Bright有助于跟踪节点,允许调试/添加新节点,最重要的是,将所有系统捆绑在一起。

管理节点方案示例:

假设从属节点(计算节点)在群集中已打开电源。该从属节点将通过管理网络内的PXE引导引导到管理节点,并且管理节点将通过MAC地址识别计算节点的各自角色。管理节点会将各自保存的启动映像部署或映像回从属节点;然后,下级节点将根据特定的引导映像进行引导,设置软件和网络,并准备好接受传入的作业以在其上运行计算。

计算节点

计算节点是“工作者”系统,从本质上说,它们是进行繁重计算的系统。

这些可以分为两种主要类型:

1)CPU计算节点;

2)GPU计算节点。

CPU计算节点通常使用大量的CPU内核,例如英特尔至强可扩展处理器,AMD EPYC处理器,高频(快速)计算内核或两者的组合。

GPU计算节点可以配备GPU,FPGA或其他并行加速器,并依赖于这些企业级设备的大规模并行计算能力和内存。

许多科研小组将拥有一个由CPU和GPU计算节点组成的机架,整个集群可以灵活地适应特定的用例。这样,集群可以变得灵活,可以为需要多种硬件的多个用户和多个应用程序提供服务。例如:CPU加速的应用程序可以具有高性能的CPU节点来运行,而GPU加速的应用程序可以具有GPU节点。

存储节点

顾名思义,存储是通用的共享存储池,可以容纳结果数据,图像,代码或科研小组特有的任何其他内容。存储可以是简单的NAS(网络附加存储)安装,也可以是更复杂的高速,高可用性并行存储组件,例如DDN,Panasas的解决方案,甚至是景派科技定制的并行存储集群。

图片关键词

这些组件中的每一个都可以按照自己的权利进行解释和分解。通常,景派科技建议使用单个共享存储库/装载,该存储库甚至可以在管理节点内组合,通常是简单实现中央共享存储空间。

高速网

集群内的网络通常采用两种形式:

1)管理网络;

2)内部网络(高速)(10/25/40/100 / 200GBE,IB,OPA等)。

管理网络和基础结构通常是群集管理软件中使用的低成本和廉价的千兆网络,以允许系统引导,配置和管理所有管理节点和计算节点的内部管理(如IPMI)。

内部联网通常是将管理节点与计算节点互连的联网,并且是在运行作业期间在计算节点和管理节点之间传输数据的主要网络。通常,这可以是10GBase-T(对于AMBER群集至少为1GbE)到高速互连和诸如100GbE或OPA之类的结构。对于这种高速网络,通常具有来自外部网络的入口点(或上行链路),因此科研人员和学生可以远程登录集群以运行或安排他们的工作。

总体而言,集群是高度可定制的,并且通常是针对科研小组或机构量身定制的。

如果你有高性能计算集群的需求,请与景派科技联系,以了解我们的工程师如何努力优化和设计最佳的高性能计算群集解决方案,以满足您的需求。

景派科技丨超算丨HPC


在线留言

电话咨询
邮件咨询
在线地图
QQ客服