GPYMON是一套专为高性能计算场景设计的高效集群监控系统,提供了预置的服务器监控功能。能高效地监控集群的软硬件运行状态,包括 CPU使用率, 内存利用, 负载,进程情况, 磁盘存储, 磁盘I/O ,网络i/O,GPU计算卡以及IB吞吐量等条目,还支持对监控数据的智能处理,根据集群的运行动态进行趋势分析,智能判断网络质量以及智能报警处理等。


景派科技丨智能超算丨高性能计算解决方案

  功 能  

  • 高效监控

GPYMON是适用于高性能计算场景的集群监控系统,专为中大型集群设计,优化了数据包的传输和采集,能实时监控集群的各种运行动态。基于对称多播架构的集群分布式系统级软硬件监控及网络质量分析系统,支持守护进程,SNMP,端口监视等方法实现对大规模高性能集群进行有效监控管理和预警,除监控常规系统运行参数如CPU,内存,网络,存储,任务等监控项以外,还可以根据监控数据的反馈分析,针对集群网络、负载、任务数等条件为集群调度系统提供有效决策辅助。


  • 集群监控展示

用户通过本地监控大屏,可以方便直观地实时监控集群的运行状态,如集群硬件情况,系统运行状态,CPU及内存负载,运行作业进度,动力环境数据,当前及历史集群数据等,便于用户管理及分析。

景派科技丨智能超算丨高性能计算解决方案

本地集群监控

  • 动态控制及管理

GPYMON监控系统基于对称多播架构的集群分布式系统级软硬件监控及网络质量分析系统,支持对集群主机、数据报文的Pull和Push,由常规的数据汇聚型处理转为可由管理节点主动轮询和拉取的方式,可根据网络的网络情况,自发地变更监控数据包的发送方式,以适应最佳的网络质量,确保集群监控对数据的实时性要求。可以通过远程对集群进行监控和管理,对故障节点进行智能判断,根据历史数据进行趋势分析,动态调整节点的监控策略,实时反馈集群的软硬件状态,作业运行状态,自动识别僵死和故障进程,全面提高计算能力的有效工作时间。

景派科技丨智能超算丨高性能计算解决方案

  • 移动监控

GPYMON监控管理系统支持手机移动端远程查看和管理集群,可以让管理员对集群实现无人值守式监控和报警。只需要在手机上进行简单的报警处理,即可由管理系统或专家实施远程介入管理操作,让用户体验到稳定、可靠、便捷的集群计算环境。

景派科技丨智能超算丨高性能计算解决方案