Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
es:centro:servizos:servidores_de_computacion_gpgpu [2019/11/14 10:48]
fernando.guillen
es:centro:servizos:servidores_de_computacion_gpgpu [2020/06/03 13:45] (actual)
fernando.guillen [Descripción del servicio]
Línea 5: Línea 5:
 Servidores con gráficas: Servidores con gráficas:
  
-  * ''​ctgpgpu1'':​ 
-    * Servidor Supermicro X8DTG-D 
-    * 2 procesadores [[http://​ark.intel.com/​products/​40200|Intel Xeon E5520]] 
-    * 10 GB de memoria RAM (5 DIMM a 1333 MHz) 
-    * 2 tarjetas Nvidia GF100 [Tesla S2050] 
-      * Algunas de las tarjetas se encuentra temporalmente en otro servidor para unas pruebas. Por lo tanto, de momento sólo hay una tarjeta disponible. 
-    * Sistema operativo Ubuntu 10.04 
-      * CUDA versión 5.0 
   * ''​ctgpgpu2'':​   * ''​ctgpgpu2'':​
     * Servidor Dell Precision R5400     * Servidor Dell Precision R5400
Línea 57: Línea 49:
       * 2 tarxeta Nvidia GP102GL [Tesla P40]       * 2 tarxeta Nvidia GP102GL [Tesla P40]
       * Sistema operativo Ubuntu 16.04       * Sistema operativo Ubuntu 16.04
-          * **Slurm para a xestión ​de colas de traballo ​de uso obrigatorio**.+          * **Slurm para la gestión ​de colas de trabajo ​de uso obligatorio**.
           * ** Modules para la gestión de versiones de bibliotecas**.           * ** Modules para la gestión de versiones de bibliotecas**.
           * CUDA versión 9.0           * CUDA versión 9.0
Línea 65: Línea 57:
           * TensorFlow           * TensorFlow
           * Caffee           * Caffee
-* ''​ctgpgpu6'': ​+  ​* ''​ctgpgpu6'': ​
       * Servidor SIE LADON 4214       * Servidor SIE LADON 4214
       * 2 procesadores ​ [[https://​ark.intel.com/​content/​www/​us/​en/​ark/​products/​193385/​intel-xeon-silver-4214-processor-16-5m-cache-2-20-ghz.html|Intel Xeon Silver 4214]]       * 2 procesadores ​ [[https://​ark.intel.com/​content/​www/​us/​en/​ark/​products/​193385/​intel-xeon-silver-4214-processor-16-5m-cache-2-20-ghz.html|Intel Xeon Silver 4214]]
       * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz) ​       * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz) ​
       * Nvidia Quadro P6000 24GB (2018)       * Nvidia Quadro P6000 24GB (2018)
 +      * Nvidia Quadro RTX8000 48GB (2019)
       * Sistema operativo Centos 7.7       * Sistema operativo Centos 7.7
           * Driver Nvidia 418.87.00 para CUDA 10.1           * Driver Nvidia 418.87.00 para CUDA 10.1
           * Docker 19.03           * Docker 19.03
           * [[https://​github.com/​NVIDIA/​nvidia-docker | Nvidia-docker ​ ]]           * [[https://​github.com/​NVIDIA/​nvidia-docker | Nvidia-docker ​ ]]
 +  * ''​ctgpgpu7'': ​
 +      * Servidor Dell PowerEdge R740
 +      * 2 procesadores ​ [[https://​ark.intel.com/​content/​www/​us/​en/​ark/​products/​193388/​intel-xeon-gold-5220-processor-24-75m-cache-2-20-ghz.html|Intel Xeon Gold 5220]]
 +      * 192 GB de memoria RAM (12 DDR4 DIMM a 2667MHz) ​
 +      * 2 x Nvidia Tesla V100S 32GB (2019)
 +      * Sistema operativo Centos 8.1
 +          * **Slurm para la gestión de colas de trabajo de uso obligatorio**.
 +          * ** Modules para la gestión de versiones de bibliotecas**.
 +          * Driver Nvidia 440.64.00 para CUDA 10.2
 +          * Docker 19.03
 +          * [[  https://​github.com/​NVIDIA/​nvidia-docker | Nvidia-docker ​ ]]
 +  * ''​ctgpgpu8'': ​
 +      * Servidor Dell PowerEdge R740
 +      * 2 procesadores ​ [[https://​ark.intel.com/​content/​www/​us/​en/​ark/​products/​193388/​intel-xeon-gold-5220-processor-24-75m-cache-2-20-ghz.html|Intel Xeon Gold 5220]]
 +      * 192 GB de memoria RAM (12 DDR4 DIMM a 2667MHz) ​
 +      * 2 x Nvidia Tesla V100S 32GB (2019)
 +      * Sistema operativo Centos 8.1
 +          * **Slurm para la gestión de colas de trabajo de uso obligatorio**
 +          * ** Modules para la gestión de versiones de bibliotecas**.
 +          * Driver Nvidia 440.64.00 para CUDA 10.2
 +          * Docker 19.03
 +          * [[  https://​github.com/​NVIDIA/​nvidia-docker | Nvidia-docker ​ ]]
 ===== Alta en el servicio ===== ===== Alta en el servicio =====
-Todos los usuarios del CiTIUS pueden acceder a este servicio, ​pero para eso deben solicitarlo previamente a través del [[https://​citius.usc.es/​uxitic/​incidencias/​add|formulario de incidencias]]. Mientras no lo hagan, recibirán un mensaje de contraseña incorrecta.+Aunque todos los usuarios del CiTIUS pueden acceder a este servicio, ​no todos los servidores están disponibles permanentemente,​ por lo que deben solicitarlo previamente a través del [[https://​citius.usc.es/​uxitic/​incidencias/​add|formulario de incidencias]]. Mientras no lo hagan, recibirán un mensaje de contraseña incorrecta.
  
 ===== Manual de usuario ===== ===== Manual de usuario =====
 ==== Conexión con los servidores ==== ==== Conexión con los servidores ====
 Para conectarse a los servidores, debes hacerlo a través de SSH. El nombre y las direcciones IP de los servidores son las siguientes: Para conectarse a los servidores, debes hacerlo a través de SSH. El nombre y las direcciones IP de los servidores son las siguientes:
-  * ctgpgpu1.inv.usc.es - 172.16.242.91:​1301 
   * ctgpgpu2.inv.usc.es - 172.16.242.92:​22   * ctgpgpu2.inv.usc.es - 172.16.242.92:​22
   * ctgpgpu3.inv.usc.es - 172.16.242.93:​22   * ctgpgpu3.inv.usc.es - 172.16.242.93:​22
   * ctgpgpu4.inv.usc.es - 172.16.242.201:​22   * ctgpgpu4.inv.usc.es - 172.16.242.201:​22
   * ctgpgpu5.inv.usc.es - 172.16.242.202:​22   * ctgpgpu5.inv.usc.es - 172.16.242.202:​22
 +  * ctgpgpu6.inv.usc.es - 172.16.242.205:​22
 +  * ctgpgpu7.inv.usc.es - 172.16.242.207:​22
 +  * ctgpgpu8.inv.usc.es - 172.16.242.208:​22
  
 La conexión solo está disponible desde la red del centro. Para conectarse desde otras localizaciones o desde la red de la RAI es necesario hacer uso de la [[:​centro:​servicios:​vpn:​start|VPN]] o de la [[:​centro:​servicios:​pasarela_ssh|parasela SSH]]. La conexión solo está disponible desde la red del centro. Para conectarse desde otras localizaciones o desde la red de la RAI es necesario hacer uso de la [[:​centro:​servicios:​vpn:​start|VPN]] o de la [[:​centro:​servicios:​pasarela_ssh|parasela SSH]].
Línea 97: Línea 114:
 ==== Gestión de los trabajos con SLURM ==== ==== Gestión de los trabajos con SLURM ====
  
-En ''​ctgpgpu2'', ​en ''​ctgpgpu3''​ y en ''​ctgpgpu5'' ​hay un gestor de colas instalado para enviar trabajos ​y así evitar conflictos entre procesos, ya que no se deben ejecutar dos trabajos al mismo tiempo.+En los servidores ​en los que hay un gestor de colas instalado para enviar trabajos ​es obligatorio su uso para evitar conflictos entre procesos, ya que no se deben ejecutar dos trabajos al mismo tiempo.
  
 Para enviar un trabajo a la cola se utiliza el comando ''​srun'':​ Para enviar un trabajo a la cola se utiliza el comando ''​srun'':​
Línea 103: Línea 120:
   srun programa_cuda argumentos_programa_cuda   srun programa_cuda argumentos_programa_cuda
  
-El proceso ''​srun''​ espera a que el trabajo se ejecute para devolver el control al usuario. Si no se quiere esperar, se pueden utilizar gestores de sesiones de consola como ''​screen'' ​(hay disponible una [[centro:​ubuntu-12.04-citius:​screen|guía en vídeo]] muy sencilla de seguir), y así poder dejar el trabajo a la espera y desconectar la sesión sin preocuparse y recuperar la salida de consola más adelante.+El proceso ''​srun''​ espera a que el trabajo se ejecute para devolver el control al usuario. Si no se quiere esperar, se pueden utilizar gestores de sesiones de consola como ''​screen''​ , y así poder dejar el trabajo a la espera y desconectar la sesión sin preocuparse y recuperar la salida de consola más adelante.
  
 Alternativamente,​ se puede utilizar ''​nohup''​ y pasar el trabajo a segundo plano con ''&''​. En este caso la salida se guarda en el archivo ''​nohup.out'':​ Alternativamente,​ se puede utilizar ''​nohup''​ y pasar el trabajo a segundo plano con ''&''​. En este caso la salida se guarda en el archivo ''​nohup.out'':​
  • es/centro/servizos/servidores_de_computacion_gpgpu.1573724908.txt.gz
  • Última modificación: 2019/11/14 10:48
  • por fernando.guillen