Diferenzas

Isto amosa as diferenzas entre a revisión seleccionada e a versión actual da páxina.

--- centro:servizos:hpc [2022/05/05 16:45] – [Conexión al sistema] jorge.suarez
+++ centro:servizos:hpc [2022/08/01 12:46] – [Envío de un trabajo al sistema de colas] fernando.guillen
@@ Liña 17: / Liña 17: @@
 |  hpc-node[3-9]             |  Dell R740   |  2 x Intel Xeon Gold 5220R @2,2 GHz (24c)       |  192 GB   |  -                           |
 |  hpc-fat1                  |  Dell R840   |  4 x Xeon Gold 6248 @ 2.50GHz (20c)             |  1 TB     |  -                           |
-|  <del>hpc-gpu[1-2]</del>*  |  Dell R740   |  2 x Intel Xeon Gold 5220 CPU @ 2.20GHz (18c)   |  192 GB   |  2x Nvidia Tesla V100S       |
+|  <del>hpc-gpu1</del>*  |  Dell R740   |  2 x Intel Xeon Gold 5220 CPU @ 2.20GHz (18c)   |  192 GB   |  2x Nvidia Tesla V100S       |
+|  hpc-gpu2  |  Dell R740   |  2 x Intel Xeon Gold 5220 CPU @ 2.20GHz (18c)   |  192 GB   |  2x Nvidia Tesla V100S       |
 |  hpc-gpu3                  |  Dell R7525  |  2 x AMD EPYC 7543 @2,80 GHz (32c)              |  256 GB   |  2x Nvidia Ampere A100 40GB  |
 |  hpc-gpu4                  |  Dell R7525  |  2 x AMD EPYC 7543 @2,80 GHz (32c)              |  256 GB   |  1x Nvidia Ampere A100 80GB  |
-* Son ctgpgpu7 y 8. Se integrarán próximamente en cluster.
+* Es ctgpgpu8. Se integrará próximamente en cluster.
 ===== Conexión al sistema =====
 Para acceder al clúster, hay que solicitarlo previamente a través de [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Los usuarios que no tengan permiso de acceso recibirán un mensaje de "contraseña incorrecta".
@@ Liña 177: / Liña 178: @@
 hpc-node[1-2]                   36                    187645                cpu_intel             (null)
 hpc-node[3-9]                   48                    187645                cpu_intel             (null)
+# Para ver el uso actual de los recursos: (CPUS (Allocated/Idle/Other/Total))
+hpc-login2 ~]$ sinfo -N -r -O NodeList,CPUsState,Memory,FreeMem,Gres,GresUsed
+# Hay un alias para este comando:
+hpc-login2 ~]$ ver_uso
+NODELIST            CPUS(A/I/O/T)       MEMORY              FREE_MEM            GRES                GRES_USED
+hpc-fat1            80/0/0/80           1027273             900850              (null)              gpu:0,mps:0
+hpc-gpu3            2/62/0/64           253282              226026              gpu:A100_40:2       gpu:A100_40:2(IDX:0-
+hpc-gpu4            1/63/0/64           253282              244994              gpu:A100_80:1(S:0)  gpu:A100_80:1(IDX:0)
+hpc-node1           36/0/0/36           187645              121401              (null)              gpu:0,mps:0
+hpc-node2           36/0/0/36           187645              130012              (null)              gpu:0,mps:0
+hpc-node3           36/12/0/48          187645              126739              (null)              gpu:0,mps:0
+hpc-node4           36/12/0/48          187645              126959              (null)              gpu:0,mps:0
+hpc-node5           36/12/0/48          187645              128572              (null)              gpu:0,mps:0
+hpc-node6           36/12/0/48          187645              127699              (null)              gpu:0,mps:0
+hpc-node7           36/12/0/48          187645              127002              (null)              gpu:0,mps:0
+hpc-node8           36/12/0/48          187645              128182              (null)              gpu:0,mps:0
+hpc-node9           36/12/0/48          187645              127312              (null)              gpu:0,mps:0
 </code>
 ==== Nodos ====
@@ Liña 256: / Liña 275: @@
 == Cómo se asignan los recursos ==
-Por defecto el método de asignación entre nodos es la asignación en bloque ( se asignan todos los cores disponibles en un nodo antes de usar otro). El método de asignación por defecto dentro de cada nodo es la asignación cíclica  (se van repartiendo por igual los cores requeridos entre los sockests disponibles en el nodo).
+Por defecto el método de asignación entre nodos es la asignación en bloque ( se asignan todos los cores disponibles en un nodo antes de usar otro). El método de asignación por defecto dentro de cada nodo es la asignación cíclica  (se van repartiendo por igual los cores requeridos entre los sockets disponibles en el nodo).
 == Calculo de la prioridad ==
@@ Liña 277: / Liña 296: @@
 == Envío de trabajos ==
+  - sbatch
   - salloc
   - srun
-  - sbatch
-. SALLOC \\
-Sirve para obtener de forma inmediata una asignación de recursos (nodos). En cuanto se obtiene se ejecuta el comando especificado o una shell en su defecto.
+. SBATCH \\
-<code bash>
-# Obtener 5 nodos y lanzar un trabajo.
-hpc-login2 ~]$ salloc -N5 myprogram
-# Obtener acceso interactivo a un nodo (Pulsar Ctrl+D para terminar el acceso):
-hpc-login2 ~]$ salloc -N1
-</code>
-. SRUN \\
-Sirve para lanzar un trabajo paralelo ( es preferible a usar mpirun ). Es interactivo y bloqueante.
-<code bash>
-# Lanzar un hostname en 2 nodos
-hpc-login2 ~]$ srun -N2 hostname
-hpc-node1
-hpc-node2
-</code>
-. SBATCH \\
 Sirve para enviar un script al sistema de colas. Es de procesamiento por lotes y no bloqueante.
 <code bash>
@@ Liña 316: / Liña 320: @@
 hpc-login2 ~]$ sbatch trabajo_ejemplo.sh
 </code>
+. SALLOC \\
+Sirve para obtener de forma inmediata una asignación de recursos (nodos). En cuanto se obtiene se ejecuta el comando especificado o una shell en su defecto.
+<code bash>
+# Obtener 5 nodos y lanzar un trabajo.
+hpc-login2 ~]$ salloc -N5 myprogram
+# Obtener acceso interactivo a un nodo (Pulsar Ctrl+D para terminar el acceso):
+hpc-login2 ~]$ salloc -N1
+</code>
+. SRUN \\
+Sirve para lanzar un trabajo paralelo ( es preferible a usar mpirun ). Es interactivo y bloqueante.
+<code bash>
+# Lanzar un hostname en 2 nodos
+hpc-login2 ~]$ srun -N2 hostname
+hpc-node1
+hpc-node2
+</code>
 ==== Uso de los nodos con GPU ====