Diferenzas

Isto amosa as diferenzas entre a revisión seleccionada e a versión actual da páxina.

Enlazar a esta vista de comparación

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
centro:servizos:hpc [2022/05/05 16:45]
jorge.suarez [Conexión al sistema]
centro:servizos:hpc [2022/08/01 12:46]
fernando.guillen [Envío de un trabajo al sistema de colas]
Liña 17: Liña 17:
 |  hpc-node[3-9] ​            ​| ​ Dell R740   ​| ​ 2 x Intel Xeon Gold 5220R @2,2 GHz (24c)       ​| ​ 192 GB   ​| ​ -                           | |  hpc-node[3-9] ​            ​| ​ Dell R740   ​| ​ 2 x Intel Xeon Gold 5220R @2,2 GHz (24c)       ​| ​ 192 GB   ​| ​ -                           |
 |  hpc-fat1 ​                 |  Dell R840   ​| ​ 4 x Xeon Gold 6248 @ 2.50GHz (20c)             ​| ​ 1 TB     ​| ​ -                           | |  hpc-fat1 ​                 |  Dell R840   ​| ​ 4 x Xeon Gold 6248 @ 2.50GHz (20c)             ​| ​ 1 TB     ​| ​ -                           |
-|  <​del>​hpc-gpu[1-2]</​del>​* ​ |  Dell R740   ​| ​ 2 x Intel Xeon Gold 5220 CPU @ 2.20GHz (18c)   ​| ​ 192 GB   ​| ​ 2x Nvidia Tesla V100S       |+|  <​del>​hpc-gpu1</​del>​* ​ ​| ​ Dell R740   ​| ​ 2 x Intel Xeon Gold 5220 CPU @ 2.20GHz (18c)   ​| ​ 192 GB   ​| ​ 2x Nvidia Tesla V100S       | 
 +|  hpc-gpu2 ​ ​| ​ Dell R740   ​| ​ 2 x Intel Xeon Gold 5220 CPU @ 2.20GHz (18c)   ​| ​ 192 GB   ​| ​ 2x Nvidia Tesla V100S       |
 |  hpc-gpu3 ​                 |  Dell R7525  |  2 x AMD EPYC 7543 @2,80 GHz (32c)              |  256 GB   ​| ​ 2x Nvidia Ampere A100 40GB  | |  hpc-gpu3 ​                 |  Dell R7525  |  2 x AMD EPYC 7543 @2,80 GHz (32c)              |  256 GB   ​| ​ 2x Nvidia Ampere A100 40GB  |
 |  hpc-gpu4 ​                 |  Dell R7525  |  2 x AMD EPYC 7543 @2,80 GHz (32c)              |  256 GB   ​| ​ 1x Nvidia Ampere A100 80GB  | |  hpc-gpu4 ​                 |  Dell R7525  |  2 x AMD EPYC 7543 @2,80 GHz (32c)              |  256 GB   ​| ​ 1x Nvidia Ampere A100 80GB  |
-Son ctgpgpu7 y 8. Se integrarán ​próximamente en cluster.+Es ctgpgpu8. Se integrará ​próximamente en cluster.
 ===== Conexión al sistema ===== ===== Conexión al sistema =====
 Para acceder al clúster, hay que solicitarlo previamente a través de [[https://​citius.usc.es/​uxitic/​incidencias/​add|formulario de incidencias]]. Los usuarios que no tengan permiso de acceso recibirán un mensaje de "​contraseña incorrecta"​. Para acceder al clúster, hay que solicitarlo previamente a través de [[https://​citius.usc.es/​uxitic/​incidencias/​add|formulario de incidencias]]. Los usuarios que no tengan permiso de acceso recibirán un mensaje de "​contraseña incorrecta"​.
Liña 177: Liña 178:
 hpc-node[1-2] ​                  ​36 ​                   187645 ​               cpu_intel ​            ​(null) ​                         hpc-node[1-2] ​                  ​36 ​                   187645 ​               cpu_intel ​            ​(null) ​                        
 hpc-node[3-9] ​                  ​48 ​                   187645 ​               cpu_intel ​            ​(null) hpc-node[3-9] ​                  ​48 ​                   187645 ​               cpu_intel ​            ​(null)
 +
 +# Para ver el uso actual de los recursos: (CPUS (Allocated/​Idle/​Other/​Total))
 +hpc-login2 ~]$ sinfo -N -r -O NodeList,​CPUsState,​Memory,​FreeMem,​Gres,​GresUsed
 +# Hay un alias para este comando:
 +hpc-login2 ~]$ ver_uso
 +NODELIST ​           CPUS(A/​I/​O/​T) ​      ​MEMORY ​             FREE_MEM ​           GRES                GRES_USED
 +hpc-fat1 ​           80/​0/​0/​80 ​          ​1027273 ​            ​900850 ​             (null) ​             gpu:0,mps:0
 +hpc-gpu3 ​           2/​62/​0/​64 ​          ​253282 ​             226026 ​             gpu:​A100_40:​2 ​      ​gpu:​A100_40:​2(IDX:​0-
 +hpc-gpu4 ​           1/​63/​0/​64 ​          ​253282 ​             244994 ​             gpu:​A100_80:​1(S:​0) ​ gpu:​A100_80:​1(IDX:​0)
 +hpc-node1 ​          ​36/​0/​0/​36 ​          ​187645 ​             121401 ​             (null) ​             gpu:0,mps:0
 +hpc-node2 ​          ​36/​0/​0/​36 ​          ​187645 ​             130012 ​             (null) ​             gpu:0,mps:0
 +hpc-node3 ​          ​36/​12/​0/​48 ​         187645 ​             126739 ​             (null) ​             gpu:0,mps:0
 +hpc-node4 ​          ​36/​12/​0/​48 ​         187645 ​             126959 ​             (null) ​             gpu:0,mps:0
 +hpc-node5 ​          ​36/​12/​0/​48 ​         187645 ​             128572 ​             (null) ​             gpu:0,mps:0
 +hpc-node6 ​          ​36/​12/​0/​48 ​         187645 ​             127699 ​             (null) ​             gpu:0,mps:0
 +hpc-node7 ​          ​36/​12/​0/​48 ​         187645 ​             127002 ​             (null) ​             gpu:0,mps:0
 +hpc-node8 ​          ​36/​12/​0/​48 ​         187645 ​             128182 ​             (null) ​             gpu:0,mps:0
 +hpc-node9 ​          ​36/​12/​0/​48 ​         187645 ​             127312 ​             (null) ​             gpu:0,mps:0
 </​code>​ </​code>​
 ==== Nodos ==== ==== Nodos ====
Liña 256: Liña 275:
  
 == Cómo se asignan los recursos == == Cómo se asignan los recursos ==
-Por defecto el método de asignación entre nodos es la asignación en bloque ( se asignan todos los cores disponibles en un nodo antes de usar otro). El método de asignación por defecto dentro de cada nodo es la asignación cíclica ​ (se van repartiendo por igual los cores requeridos entre los sockests ​disponibles en el nodo). ​+Por defecto el método de asignación entre nodos es la asignación en bloque ( se asignan todos los cores disponibles en un nodo antes de usar otro). El método de asignación por defecto dentro de cada nodo es la asignación cíclica ​ (se van repartiendo por igual los cores requeridos entre los sockets ​disponibles en el nodo). ​
  
 == Calculo de la prioridad == == Calculo de la prioridad ==
Liña 277: Liña 296:
  
 == Envío de trabajos == == Envío de trabajos ==
 +  - sbatch
   - salloc   - salloc
   - srun   - srun
-  - sbatch 
  
-1. SALLOC \\ + 
-Sirve para obtener de forma inmediata una asignación de recursos (nodos). En cuanto se obtiene se ejecuta el comando especificado o una shell en su defecto.  +1. SBATCH \\
-<code bash> +
-# Obtener 5 nodos y lanzar un trabajo. +
-hpc-login2 ~]$ salloc -N5 myprogram +
-# Obtener acceso interactivo a un nodo (Pulsar Ctrl+D para terminar el acceso): +
-hpc-login2 ~]$ salloc -N1  +
-</​code>​ +
-2. SRUN \\ +
-Sirve para lanzar un trabajo paralelo ( es preferible a usar mpirun ). Es interactivo y bloqueante. +
-<code bash> +
-# Lanzar un hostname en 2 nodos +
-hpc-login2 ~]$ srun -N2 hostname +
-hpc-node1 +
-hpc-node2 +
-</​code>​ +
-3. SBATCH \\+
 Sirve para enviar un script al sistema de colas. Es de procesamiento por lotes y no bloqueante. Sirve para enviar un script al sistema de colas. Es de procesamiento por lotes y no bloqueante.
 <code bash> <code bash>
Liña 316: Liña 320:
 hpc-login2 ~]$ sbatch trabajo_ejemplo.sh ​ hpc-login2 ~]$ sbatch trabajo_ejemplo.sh ​
 </​code>​ </​code>​
 +2. SALLOC \\
 +Sirve para obtener de forma inmediata una asignación de recursos (nodos). En cuanto se obtiene se ejecuta el comando especificado o una shell en su defecto. ​
 +<code bash>
 +# Obtener 5 nodos y lanzar un trabajo.
 +hpc-login2 ~]$ salloc -N5 myprogram
 +# Obtener acceso interactivo a un nodo (Pulsar Ctrl+D para terminar el acceso):
 +hpc-login2 ~]$ salloc -N1 
 +</​code>​
 +3. SRUN \\
 +Sirve para lanzar un trabajo paralelo ( es preferible a usar mpirun ). Es interactivo y bloqueante.
 +<code bash>
 +# Lanzar un hostname en 2 nodos
 +hpc-login2 ~]$ srun -N2 hostname
 +hpc-node1
 +hpc-node2
 +</​code>​
 +
  
 ==== Uso de los nodos con GPU ==== ==== Uso de los nodos con GPU ====
  • centro/servizos/hpc.txt
  • Última modificación: 2022/09/08 16:53
  • por fernando.guillen