计算&网络系统:

采用2台Dell PowerEdge R640作为管理/登录节点服务器、35台Dell PowerEdge C6400刀箱共139台(其中一台为备用机)双路计算刀片服务器组成一个集群。其中:

    2台Dell PowerEdge R640管理登录节点服务器主要用于运行作业调度系统、集群监控管理软件、用户信息管理服务、OPA子网管理服务、作业调度服务、时间同步服务等集群系统服务。管理节点硬件本身配置有冗余电源、本地硬盘RAID保护等可靠性保障措施。

    35台Dell PowerEdge C6400刀箱共139台(其中一台为备用机)双路计算刀片服务器,每刀片配置了2个英特尔® 至强® 金牌20核处理器;2.4GHz(单核频率),每刀片理论双精度浮点计算能力为3072Gflops;整个计算系统理论双精度浮点运算能力可以达到427Tflops

管理网络

管理网络主要用于日常管理维护及一些关键系统服务间的通信,如系统部署、作业调度系统、NIS、监控、集群管理等。

本次采用独立的千兆互联方式,将所有服务器的第一个千兆口连接到三台48口千兆管理交换机上(三台交换机之间通过专用堆叠线缆连接),同时将网络设置为独立VLAN中。

作业网络

所谓的作业网络在本项目中是指用于计算节点之间进程通信及计算节点与存储系统之间互联的高速网络。本次作业网络采用Intel专为HPC推出的OPA网络架构,配置一台激活160口(可扩展到192口)的100Gb OPA交换机,将所有服务器的OPA接口连接到该交换机上,以组成全线束无阻塞的高速网络,从而实现计算节点间及计算节点与存储系统的通讯连接。

IDRAC网络(带外管理)

主要用于对硬件的日常管理与维护。

本次采用独立的千兆互联方式,将所有服务器的idrac口连接到三台48口千兆带外管理交换机上(三台交换机之间通过专用堆叠线缆连接),同时将网络设置为独立VLAN中。

 

存储系统

采用4台Dell PowerEdge R640 存储I/O节点服务器,作为整个系统的数据读取统一通道;

部署一套intel公司开发的Lustre软件企业版的并行文件系统对整体物理存储进行智能统一的管理;

使用一套高达200TB(裸容量)存储空间的磁盘阵列,提供数据存储。



集群计算系统拓扑和连接图