This is an old revision of the document!

This page is not fully translated, yet. Please help completing the translation.
(remove this paragraph once the translation is finished)

High Performance Computing (HPC)

Introduction

High Performance Computing (HPC from now on) infrastructures offer CITIUS researchers a platform to resolve problems with high computational requirements. Ctcomp2 is a heterogeneous cluster, formed by 7 HP Proliant BL685c G7, 5 Dell PowerEdge M910 and 5 nodos Dell PowerEdge M620.

Each HP Proliant node has 4 AMD Opteron 6262 HE (16 cores) processors and 256 GB RAM(except node1 with 128GB).
Each Dell PowerEdge M910 node has 2 Intel Xeon L7555 (8 cores, 16 threads) processors and 64 GB RAM.
Each Dell PowerEdge M620 node has 2 Intel Xeon E5-2650L (8 cores, 16 threads) and 64 GB RAM.
Nodes are connected between them by several 10 GbE networks.
Job management is done by queue manager PBS/Torque.

Use

<video width=480 height=320>:centro:servizos:cluster_de_computacion_hpc_ctcomp2:ctcomp2_for_impatients_verylow.webm</video>

Contacto para incidencias
Correo electrónico: citius.tic@usc.es ¹⁾
Extensión telefónica: (+34 8818) 16409

Preguntas frecuentes

¿Qué es un clúster de computación?
¿Qué es un sistema de gestión de colas?
¿Por qué no se ejecuta inmediatamente el trabajo que he enviado con qsub?

¿Qué es un clúster de computación?

Es un conjunto de nodos computacionales interconectados mediante una red dedicada y que pueden actuar como un único elemento computacional

En la práctica, esto se traduce en:
- potencia computacional (ejecución de un trabajo paralelo muy grande o muchas ejecuciones pequeñas concurrentemente) …
- … en una infraestructura compartida entre varios usuarios

¿Qué es un sistema de gestión de colas?

Un sistema de gestión de colas (SGC) es un software que planifica la ejecución de trabajos entre los recursos computacionales disponibles. Es un software habitual en los sistemas de computación de altas prestaciones ya que permite una gestión eficiente de los recursos computacionales en un sistema con múltiples usuarios. En el clúster está instalado PBS/TORQUE. Para mayor información sobre el sistema de colas de ctcomp2: "Envío de trabajos al sistema de colas Torque/PBS".
La dinámica de funcionamiento de estos sistemas es:
1. El usuario solicita al SGC unos determinados recursos para realizar una tarea computacional. Esta tarea estará formada por un conjunto de instrucciones, que deben estar almacenadas en un script.
2. El SGC registra la solicitud en una de sus colas.
3. Cuando estén disponibles los requisitos solicitados, y en función de las prioridades establecidas en el sistema, el SGC se encarga de ejecutar la tarea en los nodos computacionales y devolver la salida generada.
Es importante destacar que, al contrario que en un PC, la solicitud y la ejecución de una tarea son acciones independientes que no tienen por que realizarse de manera indisoluble. De hecho, lo más habitual es que la ejecución tenga que esperar en la cola durante un tiempo indefinido hasta que haya recursos disponibles. Por otro lado, una consecuencia directa de desligar estas dos acciones es la imposibilidad de realizar ejecuciones de manera interactiva.²⁾

¿Por qué no se ejecuta inmediatamente el trabajo que he enviado con qsub?

El sistema de colas permite desacoplar la ejecución de un trabajo en dos fases claramente diferenciadas. La primera acción consiste en una solicitud, a través de qsub, para ejecutar un código en los nodos. La segunda acción es transparente al usuario y consiste en el envío del trabajo a los nodos computacionales. Este envío solo se produce cuando se cumplen las condiciones de ejecución establecidas por el usuario en su solicitud.

Por lo tanto, si el trabajo no se ejecuta inmediatamente, puede deberse a diversas situaciones:

Existe un pequeño retardo entre la solicitud y el envío. No es una cantidad de tiempo determinada, pero suele ser menor de 1 minuto.
Si existen muchos trabajos encolados (se puede consultar con qstat -q) puede que nuestro trabajo no tenga disponibles los recursos que solicitamos. Cuando existan los recursos disponibles, y no existan trabajos en espera con mayor prioridad, nuestro trabajo será enviado automáticamente para su ejecución. (En el clúster ctcomp2 es posible crear una alerta para conocer cuando se envía un trabajo, y cuando termina: "Envío de trabajos al sistema de colas Torque/PBS".)
El clúster dispone de un sistema de gestión de energía que apaga los nodos computacionales cuando no han sido utilizados durante cierto tiempo. Puede suceder que, aunque no haya trabajos en la cola, nuestra solicitud no sea enviada a los nodos porque los recursos estaban apagados en el momento de la solicitud. En este caso, la ejecución del trabajo deberá esperar a que los recursos estén activos (es también un tiempo variable, pero suele ser menor de 10 minutos).

¹⁾

Por favor, usa el prefijo “[citius-cap]” en el asunto del correo. Gracias!

²⁾

Existen colas especiales, con tiempo y recursos limitados, que permite realizar sesiones interactivas.

High Performance Computing (HPC) cluster ctcomp3