Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
es:centro:servizos:servidores_de_computacion_gpgpu [2019/02/20 12:20]
jorge.suarez
es:centro:servizos:servidores_de_computacion_gpgpu [2020/06/03 13:45] (actual)
fernando.guillen [Descripción del servicio]
Línea 5: Línea 5:
 Servidores con gráficas: Servidores con gráficas:
  
-  * ''​ctgpgpu1'':​ 
-    * Servidor Supermicro X8DTG-D 
-    * 2 procesadores [[http://​ark.intel.com/​products/​40200|Intel Xeon E5520]] 
-    * 10 GB de memoria RAM (5 DIMM a 1333 MHz) 
-    * 2 tarjetas Nvidia GF100 [Tesla S2050] 
-      * Algunas de las tarjetas se encuentra temporalmente en otro servidor para unas pruebas. Por lo tanto, de momento sólo hay una tarjeta disponible. 
-    * Sistema operativo Ubuntu 10.04 
-      * CUDA versión 5.0 
   * ''​ctgpgpu2'':​   * ''​ctgpgpu2'':​
     * Servidor Dell Precision R5400     * Servidor Dell Precision R5400
Línea 32: Línea 24:
       * Gigabyte GeForce GTX Titan 6GB (2014)       * Gigabyte GeForce GTX Titan 6GB (2014)
       * Nvidia Titan X Pascal 12GB (2016)       * Nvidia Titan X Pascal 12GB (2016)
-      * Nvidia Titan Xp 12GB (2017) 
-      * Nvidia Quadro P6000 24GB (2018) 
     * Sistema operativo Ubuntu 18.04     * Sistema operativo Ubuntu 18.04
       * Slurm (//de uso obligatorio para la gestión de trabajos//)       * Slurm (//de uso obligatorio para la gestión de trabajos//)
Línea 59: Línea 49:
       * 2 tarxeta Nvidia GP102GL [Tesla P40]       * 2 tarxeta Nvidia GP102GL [Tesla P40]
       * Sistema operativo Ubuntu 16.04       * Sistema operativo Ubuntu 16.04
-          * **Slurm para a xestión ​de colas de traballo ​de uso obrigatorio**.+          * **Slurm para la gestión ​de colas de trabajo ​de uso obligatorio**.
           * ** Modules para la gestión de versiones de bibliotecas**.           * ** Modules para la gestión de versiones de bibliotecas**.
           * CUDA versión 9.0           * CUDA versión 9.0
Línea 67: Línea 57:
           * TensorFlow           * TensorFlow
           * Caffee           * Caffee
 +  * ''​ctgpgpu6'':​  
 +      * Servidor SIE LADON 4214 
 +      * 2 procesadores ​ [[https://​ark.intel.com/​content/​www/​us/​en/​ark/​products/​193385/​intel-xeon-silver-4214-processor-16-5m-cache-2-20-ghz.html|Intel Xeon Silver 4214]] 
 +      * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz)  
 +      * Nvidia Quadro P6000 24GB (2018) 
 +      * Nvidia Quadro RTX8000 48GB (2019) 
 +      * Sistema operativo Centos 7.7 
 +          * Driver Nvidia 418.87.00 para CUDA 10.1 
 +          * Docker 19.03 
 +          * [[https://​github.com/​NVIDIA/​nvidia-docker | Nvidia-docker ​ ]] 
 +  * ''​ctgpgpu7'':​  
 +      * Servidor Dell PowerEdge R740 
 +      * 2 procesadores ​ [[https://​ark.intel.com/​content/​www/​us/​en/​ark/​products/​193388/​intel-xeon-gold-5220-processor-24-75m-cache-2-20-ghz.html|Intel Xeon Gold 5220]] 
 +      * 192 GB de memoria RAM (12 DDR4 DIMM a 2667MHz)  
 +      * 2 x Nvidia Tesla V100S 32GB (2019) 
 +      * Sistema operativo Centos 8.1 
 +          * **Slurm para la gestión de colas de trabajo de uso obligatorio**. 
 +          * ** Modules para la gestión de versiones de bibliotecas**. 
 +          * Driver Nvidia 440.64.00 para CUDA 10.2 
 +          * Docker 19.03 
 +          * [[  https://​github.com/​NVIDIA/​nvidia-docker | Nvidia-docker ​ ]] 
 +  * ''​ctgpgpu8'':​  
 +      * Servidor Dell PowerEdge R740 
 +      * 2 procesadores ​ [[https://​ark.intel.com/​content/​www/​us/​en/​ark/​products/​193388/​intel-xeon-gold-5220-processor-24-75m-cache-2-20-ghz.html|Intel Xeon Gold 5220]] 
 +      * 192 GB de memoria RAM (12 DDR4 DIMM a 2667MHz)  
 +      * 2 x Nvidia Tesla V100S 32GB (2019) 
 +      * Sistema operativo Centos 8.1 
 +          * **Slurm para la gestión de colas de trabajo de uso obligatorio** 
 +          * ** Modules para la gestión de versiones de bibliotecas**. 
 +          * Driver Nvidia 440.64.00 para CUDA 10.2 
 +          * Docker 19.03 
 +          * [[  https://​github.com/​NVIDIA/​nvidia-docker | Nvidia-docker ​ ]]
 ===== Alta en el servicio ===== ===== Alta en el servicio =====
-Todos los usuarios del CiTIUS pueden acceder a este servicio, ​pero para eso deben solicitarlo previamente a través del [[https://old.citius.usc.es/​uxitic/​incidentes/​add|formulario de incidentes]]. Mientras no lo hagan, recibirán un mensaje de contraseña incorrecta.+Aunque todos los usuarios del CiTIUS pueden acceder a este servicio, ​no todos los servidores están disponibles permanentemente,​ por lo que deben solicitarlo previamente a través del [[https://​citius.usc.es/​uxitic/​incidencias/​add|formulario de incidencias]]. Mientras no lo hagan, recibirán un mensaje de contraseña incorrecta.
  
 ===== Manual de usuario ===== ===== Manual de usuario =====
 ==== Conexión con los servidores ==== ==== Conexión con los servidores ====
 Para conectarse a los servidores, debes hacerlo a través de SSH. El nombre y las direcciones IP de los servidores son las siguientes: Para conectarse a los servidores, debes hacerlo a través de SSH. El nombre y las direcciones IP de los servidores son las siguientes:
-  * ctgpgpu1.inv.usc.es - 172.16.242.91:​1301 
   * ctgpgpu2.inv.usc.es - 172.16.242.92:​22   * ctgpgpu2.inv.usc.es - 172.16.242.92:​22
   * ctgpgpu3.inv.usc.es - 172.16.242.93:​22   * ctgpgpu3.inv.usc.es - 172.16.242.93:​22
   * ctgpgpu4.inv.usc.es - 172.16.242.201:​22   * ctgpgpu4.inv.usc.es - 172.16.242.201:​22
-  * ctgpgpu5.inv.usc.es - 172.16.242.201:22+  * ctgpgpu5.inv.usc.es - 172.16.242.202:22 
 +  * ctgpgpu6.inv.usc.es - 172.16.242.205:​22 
 +  * ctgpgpu7.inv.usc.es - 172.16.242.207:​22 
 +  * ctgpgpu8.inv.usc.es - 172.16.242.208:22
  
 La conexión solo está disponible desde la red del centro. Para conectarse desde otras localizaciones o desde la red de la RAI es necesario hacer uso de la [[:​centro:​servicios:​vpn:​start|VPN]] o de la [[:​centro:​servicios:​pasarela_ssh|parasela SSH]]. La conexión solo está disponible desde la red del centro. Para conectarse desde otras localizaciones o desde la red de la RAI es necesario hacer uso de la [[:​centro:​servicios:​vpn:​start|VPN]] o de la [[:​centro:​servicios:​pasarela_ssh|parasela SSH]].
Línea 91: Línea 114:
 ==== Gestión de los trabajos con SLURM ==== ==== Gestión de los trabajos con SLURM ====
  
-En ''​ctgpgpu2'', ​en ''​ctgpgpu3''​ y en ''​ctgpgpu5'' ​hay un gestor de colas instalado para enviar trabajos ​y así evitar conflictos entre procesos, ya que no se deben ejecutar dos trabajos al mismo tiempo.+En los servidores ​en los que hay un gestor de colas instalado para enviar trabajos ​es obligatorio su uso para evitar conflictos entre procesos, ya que no se deben ejecutar dos trabajos al mismo tiempo.
  
 Para enviar un trabajo a la cola se utiliza el comando ''​srun'':​ Para enviar un trabajo a la cola se utiliza el comando ''​srun'':​
Línea 97: Línea 120:
   srun programa_cuda argumentos_programa_cuda   srun programa_cuda argumentos_programa_cuda
  
-El proceso ''​srun''​ espera a que el trabajo se ejecute para devolver el control al usuario. Si no se quiere esperar, se pueden utilizar gestores de sesiones de consola como ''​screen'' ​(hay disponible una [[centro:​ubuntu-12.04-citius:​screen|guía en vídeo]] muy sencilla de seguir), y así poder dejar el trabajo a la espera y desconectar la sesión sin preocuparse y recuperar la salida de consola más adelante.+El proceso ''​srun''​ espera a que el trabajo se ejecute para devolver el control al usuario. Si no se quiere esperar, se pueden utilizar gestores de sesiones de consola como ''​screen''​ , y así poder dejar el trabajo a la espera y desconectar la sesión sin preocuparse y recuperar la salida de consola más adelante.
  
 Alternativamente,​ se puede utilizar ''​nohup''​ y pasar el trabajo a segundo plano con ''&''​. En este caso la salida se guarda en el archivo ''​nohup.out'':​ Alternativamente,​ se puede utilizar ''​nohup''​ y pasar el trabajo a segundo plano con ''&''​. En este caso la salida se guarda en el archivo ''​nohup.out'':​
  • es/centro/servizos/servidores_de_computacion_gpgpu.1550661619.txt.gz
  • Última modificación: 2019/02/20 12:20
  • por jorge.suarez