Diferencias

Muestra las diferencias entre dos versiones de la página.

--- es:centro:servizos:hpc [2023/03/03 13:56] – [Uso de SLURM] fernando.guillen
+++ es:centro:servizos:hpc [2024/03/13 10:38] (actual) – [Envío de un trabajo al sistema de colas] fernando.guillen
@@ Línea 164: / Línea 164: @@
 # Instalarlo
 sh Miniconda3-py39_4.11.0-Linux-x86_64.sh
+# Inicializar miniconda para el shell bash
+~/miniconda3/bin/conda init bash
 </code>
@@ Línea 263: / Línea 265: @@
 # Hay un alias que muestra solo la información más relevante:
 hpc-login2 ~]$ ver_colas
-      Name   Priority           Flags UsageFactor                     MaxTRES     MaxWall     MaxTRESPU MaxJobsPU MaxSubmitPU
+      Name    Priority                                  MaxTRES     MaxWall            MaxTRESPU MaxJobsPU MaxSubmitPU
----------- ---------- --------------- ----------- --------------------------- ----------- ------------- --------- -----------
+----------  ---------- ---------------------------------------- ----------- -------------------- --------- -----------
-   regular        100     DenyOnLimit    1.000000   cpu=200,gres/gpu=1,node=4  4-04:00:00                      10          50
+   regular         100                cpu=200,gres/gpu=1,node=4  4-04:00:00       cpu=200,node=4        10          50
-interactive       200     DenyOnLimit    1.000000                      node=1    04:00:00        node=1         1           1
+interactive        200                                   node=1    04:00:00               node=1         1           1
-    urgent        300     DenyOnLimit    2.000000           gres/gpu=1,node=1    04:00:00        cpu=36         5          15
+    urgent         300                        gres/gpu=1,node=1    04:00:00               cpu=36         5          15
-      long        100     DenyOnLimit    1.000000           gres/gpu=1,node=4  8-08:00:00
+      long         100                        gres/gpu=1,node=4  8-04:00:00                              1           5
-     large        100     DenyOnLimit    1.000000          cpu=200,gres/gpu=2  4-04:00:00                      10          25
+     large         100                       cpu=200,gres/gpu=2  4-04:00:00                              2          10
-     admin        500                    0.000000
+     admin         500
+     small         150                             cpu=6,node=2    04:00:00              cpu=400        40         100
 </code>
 # Priority: es la prioridad relativa de cada cola. \\
@@ Línea 283: / Línea 286: @@
 ==== Envío de un trabajo al sistema de colas ====
 == Especificación de recursos ==
-Por defecto, si se envía un trabajo sin especificar nada el sistema lo envia a la QOS por defecto (regular) y le asigna un nodo, una CPU y toda la memoria disponible. El límite de tiempo para la ejecución del trabajo es el de la cola (4 días y 4 horas).
+Por defecto, si se envía un trabajo sin especificar nada el sistema lo envía a la QOS por defecto (regular) y le asigna un nodo, una CPU y 4GB de RAM. El límite de tiempo para la ejecución del trabajo es el de la cola (4 días y 4 horas).
 Esto es muy ineficiente, lo ideal es especificar en la medida de lo posible al menos tres parámetros a la hora de enviar los trabajos:
   -  %%El número de nodos (-N o --nodes), tareas (-n o --ntasks) y/o CPU por tarea (-c o --cpus-per-task).%%
@@ Línea 351: / Línea 354: @@
 # Obtener acceso interactivo a un nodo (Pulsar Ctrl+D para terminar el acceso):
 hpc-login2 ~]$ salloc -N1
+# Obtener acceso interactivo a un nodo de forma EXCLUSIVA
+hpc-login2 ~]$ salloc -N1 --exclusive
 </code>
 . SRUN \\
@@ Línea 435: / Línea 440: @@
 JOBID PARTITION     NAME     USER      STATE       TIME  NODES NODELIST(REASON)
   defaultPa  example <username>  RUNNING   22:54:55      1 hpc-fat1
+## Ver estado de uso de las colas del cluster:
+hpc-login2 ~]$ estado_colas.sh
+JOBS PER USER:
+--------------
+       usuario.uno:  3
+       usuario.dos:  1
+JOBS PER QOS:
+--------------
+             regular:  3
+                long:  1
+JOBS PER STATE:
+--------------
+             RUNNING:  3
+             PENDING:  1
+==========================================
+Total JOBS in cluster:  4
 </code>
 Estados (STATE) más comunes de un trabajo: