Diferencias

Muestra las diferencias entre dos versiones de la página.

--- es:centro:servizos:servidores_de_computacion_gpgpu [2018/01/11 18:14] – [Descripción del servicio] fernando.guillen
+++ es:centro:servizos:servidores_de_computacion_gpgpu [2021/09/30 12:27] – pilar.carou
@@ Línea 3: / Línea 3: @@
 ===== Descripción del servicio =====
-Dos servidores con gráficas:
+Servidores con gráficas:
-  * ''ctgpgpu1'':
-    * Servidor Supermicro X8DTG-D
-    * 2 procesadores [[http://ark.intel.com/products/40200|Intel Xeon E5520]]
-    * 10 GB de memoria RAM (5 DIMM a 1333 MHz)
-    * 2 tarjetas Nvidia GF100 [Tesla S2050]
-      * Algunas de las tarjetas se encuentra temporalmente en otro servidor para unas pruebas. Por lo tanto, de momento sólo hay una tarjeta disponible.
-    * Sistema operativo Ubuntu 10.04
-      * CUDA versión 5.0
-  * ''ctgpgpu2'':
-    * Servidor Dell Precision R5400
-    * 2 procesadores [[http://ark.intel.com/products/33082/|Intel Xeon E5440]]
-    * 8 GB de memoria RAM (4 DDR2 FB-DIMM a 667 MHz)
-    * 1 tarjeta Nvidia GK104 [Geforce GTX 680]
-    * Sistema operativo Ubuntu 14.04
-      * **Slurm para la gestión de colas de trabajo de uso obligatorio**.
-      * CUDA versión 7.5
-      * OpenBLAS
-      * NVIDIA cuDNN v4 Release Candidate for CUDA 7 and later (en ''/opt/cudnn'')
-      * NVIDIA DIGITS 3.0.0
-      * Lapack 3.5.0
-      * Magma 1.7.0 (compilado con OpenBLAS)
-      * Caffe git@03a84bf (cercana a 1.0 rc-2, compilado con OpenBLAS y soporte cuDNN, en ''/opt/caffe'')
-      * Intel Parallel Studio Professional for C++ 2015 (licencia única, ¡avisa si vas a usarlo!)
   * ''ctgpgpu3'':
     * Servidor PowerEdge R720
@@ Línea 35: / Línea 12: @@
       * Gigabyte GeForce GTX Titan 6GB (2014)
       * Nvidia Titan X Pascal 12GB (2016)
-      * Nvidia Titan Xp 12GB (2017)
+    * Sistema operativo Ubuntu 18.04
-    * Sistema operativo Ubuntu 14.04
+      * Slurm (//de uso obligatorio para la gestión de trabajos//)
-      * **Slurm para la gestión de colas de trabajo de uso obligatorio**.
+      * CUDA 10.2 (//repositorio oficial de Nvidia//)
-      * CUDA versión 8.0
+      * Docker-ce 18.06 (//repositorio oficial de Docker//)
-      * NVIDIA cuDNN v5 for CUDA 7.5 (en ''/opt/cudnn'')
+      * Nvidia-docker 2.0.3 (//repositorio oficial de Nvidia//)
-      * Cudarray (compilado usando cuDNN, versión de junio de 2016)
+      * Nvidia cuDNN v7.2.1 for CUDA 9.2
-      * Magma 1.4.1 beta
+      * Intel Parallel Studio Professional for C++ 2015 (//¡licencia única, avisa si vas a utilizarlo!//)
-      * Intel Parallel Studio Professional for C++ 2015 (licencia única, ¡avisa si vas a usarlo!)
+      * ROS Melodic Morenia (//repositorio oficial de ROS//)
+  * ''ctgpgpu4'':
+      * Servidor PowerEdge R730
+      * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]
+      * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
+      * 2 tarxeta Nvidia GP102GL [Tesla P40]
+      * Sistema operativo Centos 7.4
+          * docker 17.09 y nvidia-docker 1.0.1
+          * OpenCV 2.4.5
+          * Dliv, Caffe, Caffe2 y pycaffe
+          * Python 3.4: cython, easydict, sonnet
+          * TensorFlow
+  * ''ctgpgpu5'':
+      * Servidor PowerEdge R730
+      * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]
+      * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
+      * 2 tarxeta Nvidia GP102GL [Tesla P40]
+      * Sistema operativo Ubuntu 18.04
+          * **Slurm para la gestión de colas de trabajo de uso obligatorio**.
+          * ** Modules para la gestión de versiones de bibliotecas**.
+          * CUDA versión 11.0
+          * OpenCV 2.4 y 3.4
+          * Atlas 3.10.3
+          * MAGMA
+          * TensorFlow
+          * Caffee
+  * ''ctgpgpu6'':
+      * Servidor SIE LADON 4214
+      * 2 procesadores  [[https://ark.intel.com/content/www/us/en/ark/products/193385/intel-xeon-silver-4214-processor-16-5m-cache-2-20-ghz.html|Intel Xeon Silver 4214]]
+      * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz)
+      * Nvidia Quadro P6000 24GB (2018)
+      * Nvidia Quadro RTX8000 48GB (2019)
+      * Sistema operativo Centos 7.7
+          * Driver Nvidia 418.87.00 para CUDA 10.1
+          * Docker 19.03
+          * [[https://github.com/NVIDIA/nvidia-docker | Nvidia-docker  ]]
+  * ''ctgpgpu7'':
+      * Servidor Dell PowerEdge R740
+      * 2 procesadores  [[https://ark.intel.com/content/www/us/en/ark/products/193388/intel-xeon-gold-5220-processor-24-75m-cache-2-20-ghz.html|Intel Xeon Gold 5220]]
+      * 192 GB de memoria RAM (12 DDR4 DIMM a 2667MHz)
+      * 2 x Nvidia Tesla V100S 32GB (2019)
+      * Sistema operativo Centos 8.1
+          * **Slurm para la gestión de colas de trabajo de uso obligatorio**.
+          * ** Modules para la gestión de versiones de bibliotecas**.
+          * Driver Nvidia 440.64.00 para CUDA 10.2
+          * Docker 19.03
+          * [[  https://github.com/NVIDIA/nvidia-docker | Nvidia-docker  ]]
+  * ''ctgpgpu8'':
+      * Servidor Dell PowerEdge R740
+      * 2 procesadores  [[https://ark.intel.com/content/www/us/en/ark/products/193388/intel-xeon-gold-5220-processor-24-75m-cache-2-20-ghz.html|Intel Xeon Gold 5220]]
+      * 192 GB de memoria RAM (12 DDR4 DIMM a 2667MHz)
+      * 2 x Nvidia Tesla V100S 32GB (2019)
+      * Sistema operativo Centos 8.1
+          * **Slurm para la gestión de colas de trabajo de uso obligatorio**
+          * ** Modules para la gestión de versiones de bibliotecas**.
+          * Driver Nvidia 440.64.00 para CUDA 10.2
+          * Docker 19.03
+          * [[  https://github.com/NVIDIA/nvidia-docker | Nvidia-docker  ]]
 ===== Alta en el servicio =====
-Todos los usuarios del CiTIUS pueden acceder a este servicio, pero para eso deben solicitarlo previamente a través del [[https://old.citius.usc.es/uxitic/incidentes/add|formulario de incidentes]]. Mientras no lo hagan, recibirán un mensaje de contraseña incorrecta.
+Aunque todos los usuarios del CiTIUS pueden acceder a este servicio, no todos los servidores están disponibles permanentemente, por lo que deben solicitarlo previamente a través del [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Mientras no lo hagan, recibirán un mensaje de contraseña incorrecta.
 ===== Manual de usuario =====
 ==== Conexión con los servidores ====
-Para conectarse a los servidores, debes hacerlo a través de SSH por el puerto 1301. El nombre y las direcciones IP de los servidores son las siguientes:
+Para conectarse a los servidores, debes hacerlo a través de SSH. El nombre y las direcciones IP de los servidores son las siguientes:
-  * ctgpgpu1.inv.usc.es - 172.16.242.91
-  * ctgpgpu2.inv.usc.es - 172.16.242.92
+  * ctgpgpu3.inv.usc.es - 172.16.242.93:22
-  * ctgpgpu3.inv.usc.es - 172.16.242.93
+  * ctgpgpu4.inv.usc.es - 172.16.242.201:22
+  * ctgpgpu5.inv.usc.es - 172.16.242.202:22
+  * ctgpgpu6.inv.usc.es - 172.16.242.205:22
+  * ctgpgpu7.inv.usc.es - 172.16.242.207:22
+  * ctgpgpu8.inv.usc.es - 172.16.242.208:22
-La conexión solo está disponible desde la red del centro. Para conectarse desde otras localizaciones o desde la red de la RAI es necesario hacer uso de la [[:centro:servicios:vpn:start|VPN]] o de la [[:centro:servicios:pasarela_ssh|parasela SSH]].
+La conexión solo está disponible desde la red del centro. Para conectarse desde otras localizaciones o desde la red de la RAI es necesario hacer uso de la [[es:centro:servicios:vpn:start|VPN]] o de la [[:centro:servicios:pasarela_ssh|parasela SSH]].
 ==== Apagado/encendido de los equipos ====
@@ Línea 65: / Línea 102: @@
 ==== Gestión de los trabajos con SLURM ====
-En ''ctgpgpu2'' y en ''ctgpgpu3'' hay un gestor de colas instalado para enviar trabajos y así evitar conflictos entre procesos, ya que no se deben ejecutar dos trabajos al mismo tiempo.
+En los servidores en los que hay un gestor de colas instalado para enviar trabajos es obligatorio su uso para evitar conflictos entre procesos, ya que no se deben ejecutar dos trabajos al mismo tiempo.
 Para enviar un trabajo a la cola se utiliza el comando ''srun'':
@@ Línea 71: / Línea 108: @@
   srun programa_cuda argumentos_programa_cuda
-El proceso ''srun'' espera a que el trabajo se ejecute para devolver el control al usuario. Si no se quiere esperar, se pueden utilizar gestores de sesiones de consola como ''screen'' (hay disponible una [[centro:ubuntu-12.04-citius:screen|guía en vídeo]] muy sencilla de seguir), y así poder dejar el trabajo a la espera y desconectar la sesión sin preocuparse y recuperar la salida de consola más adelante.
+El proceso ''srun'' espera a que el trabajo se ejecute para devolver el control al usuario. Si no se quiere esperar, se pueden utilizar gestores de sesiones de consola como ''screen'' , y así poder dejar el trabajo a la espera y desconectar la sesión sin preocuparse y recuperar la salida de consola más adelante.
 Alternativamente, se puede utilizar ''nohup'' y pasar el trabajo a segundo plano con ''&''. En este caso la salida se guarda en el archivo ''nohup.out'':