生命科学研究HPC解决方案

在生命科学领域,诸多研究内容都需要HPC的协助。首先就是基因组信息学,基因组数据的存储以及基于海量数据的基因组数据内涵的分析与解释对存储和算力要求极高,若无HPC提供协助,此方向的研究难以为继。然后就是蛋白质空间结构模拟与预测,由于蛋白质的分子量大、空间结构异常复杂,因而此方向的研究不仅对算力要求极高,对于存储性能的也是很严苛。

1、方案背景

2019年底新冠病毒降临,人民的生命健康受到极大威胁。在这场与新冠病毒的战役中,HPC发挥了巨大的作用,为寻找病毒来源、获知病毒结构、筛选抗毒小分子等等重要环节提供了极其重要的算力和存储支持,助力科研抗疫。进入21世纪以来,生命科学领域的研究需要HPC资源协助的比例逐年增大,根据生命科学计算咨询公司BioTeam副总裁兼总经理艾瑞·贝尔曼(Ari Berman)的预测,在2018年这一比例就将超过50%。

与蛋白质结构模拟与预测相对应的,就是结构的获取。在研究新冠病毒的时候,我国科学家为了获取其结构,采用了冷冻电镜三维重构技术,在低温环境下利用透射电子显微镜对样品进行成像,再经图像处理和重构计算获得样品的三维结构。在整个流程中,数据采集、图像处理、三维重构是非常核心的三个步骤,对计算和存储的需求非常高。病毒颗粒结构的解析,其电镜图像的数据量可高达数TB,且病毒颗粒相对蛋白质颗粒要大得多,在计算上单一进程就需要128GB的内存,那么一台计算节点就需要至少4TB的内存支持。在算法上,基于中央截面定理的重构过程依赖大量的单精度或双精度快速傅里叶(FFT)计算,需要海量算力资源来支持。

不仅如此,在生命科学领域,药物分子设计、基因表达的调控、基因功能的预测、分子的进化、生物的起源等等研究都已进入了计算时代!在抗疫的生死竞速的赛场上,也许我们算的快一点,我们能救治的病人,能拯救的生命就会多一点;在不断进化的生命科学研究进程中,也许我们算得更快一点,处理的数据量更大一些、处理效率更高一些,就能改变人类受制于自然病毒的命运!

景派科技丨超算丨HPC

2、解决方案

生命科学领域的研究首先计算量大、数据精度高,对算力的要求极高;然后参与计算的数据量巨大,需要将大量数据写入内存读取,对内存容量和性能要求高;其次往往涉及超大量数据的存储,不仅要求较高的存储容量,更要求较高的存储性能。景派科技多年来专注于为客户提供针对专业领域的HPC解决方案,为生命科学研究领域的用户解决了以下痛点问题:

(1)算力和计算效率

生命科学研究领域的计算研究对于高精度浮点计算有很高的依赖性。景派科技多年来致力于高性能的集群解决方案研发与优化,对市面上主流的CPU有着透彻的测试,对生命科学研究领域的诸多场景进行过仿真优化。我们的方案不仅能够满足算力的要求,更能结合领域计算特征,在软件和硬件的层面都提升计算效率。

(2)内存容量和性能

内存的容量和性能往往是一个HPC系统的瓶颈,在生命科学研究领域更是如此。为了解决计算过程中大量且频繁的数据读取,景派科技提供基于多通道、对称式内存的方案,不仅使内存容量可达到TB级别,相比传统单通道或非对称内存通道的方案,内存带宽增强数倍,内存性能飙升。

(3)存储容量和性能

高性能计算的很多应用都会产生海量的数据,生命科学研究领域的大多数研究都涉及高分子量数据的计算和相关数据的存储分析。基于此,景派科技多年来注重分布式文件系统的研究以及对应方案的研发。我们不仅可以提供专业的直连式存储方案,更能为集群提供基于Lustre的优化的景派分布式文件系统方案,保证存储容量的同时,能够实现大型文件的高I/O性能、极高的数据吞吐率、高并行访问和高数据共享。

(4)系统高稳定性

应用于科学计算领域的HPC系统通常都是长期高负荷下运行,系统的稳定性尤为重要。因而景派科技提供成熟的HPC运维管理方案,使用统一的集群监控管理、作业调度系统,结合景派强大的售后技术保障体系,从各个方面保证整套系统的稳定性,降低故障率,能够让用户在无后顾之忧的前提下专心做计算。

景派科技丨超算丨HPC

生命科学研究HPC架构

3、方案优势

(1)专业的技术支持

景派科技拥有一支专业化的HPC应用分析团队,可以针对客户应用,运用成熟的测试方案进行专业化的分析,不仅可以为客户提供针对性的高性价比HPC解决方案,更可以为用户提供高效率的优化计算方案。

(2)算力和计算效率的结合

一昧地提高算力很容易就会达到瓶颈,针对应用的计算特点选用计算效率更高的方案往往会带来更好的计算效果。景派科技研发团队多年来致力于特定应用场景高计算效率解决方案的研发,因而能够在满足算力要求的条件下,为客户提供计算效率更优的组合,提高性价比。

(3)数据的处理能力

生命科学领域的研究不仅需要较高的算力,数据分析与处理更是潜在的重要需求。景派科技不仅提供高性能、高容量的内存和存储方案,更能够提供高效的集群文件系统,满足生命科学领域对于大文件的存取、并行访问和数据共享需求。

(4)集群的并行能力

HPC集群的运行需要耗费大量能源,若是并行度不高,则大量算力资源被浪费。景派科技HPC集群在软件上使用了经过团队优化的业内公认的并行任务调度系统,支持多种MPI和网络协议;硬件上采用高性能的节点间通信连接,具有高带宽和低延迟的特点,提高节点间通信速度。软硬结合,减少并行通信损耗提高并行度。

(5)任务的优先级管理

在使用HPC集群的时候,经常会遇到一些紧急的任务需要马上计算。景派科技的HPC集群提供任务优先级管理功能,能够在资源不足时,挂起当前任务,紧急项目或任务可以获得更高的优先级,提前执行。

 景派科技丨超算丨HPC