Diferenzas

Isto amosa as diferenzas entre a revisión seleccionada e a versión actual da páxina.

Enlazar a esta vista de comparación

Both sides previous revisionPrevious revision
Next revision
Previous revision
centro:servizos:servidores_de_computacion_gpgpu [2020/05/08 13:12] – [Descrición do servizo] fernando.guillencentro:servizos:servidores_de_computacion_gpgpu [2023/12/20 11:43] (actual) fernando.guillen
Liña 3: Liña 3:
 ===== Descrición do servizo ===== ===== Descrición do servizo =====
  
-Seis servidores con gráficas:+==== Servidores con gráficas de acceso libre ====
  
-  * ''ctgpgpu1'': 
-    * Servidor Supermicro X8DTG-D 
-    * 2 procesadores [[http://ark.intel.com/products/40200|Intel Xeon E5520]] 
-    * 10 GB de memoria RAM (5 DIMM a 1333 MHz) 
-    * 2 tarxetas Nvidia GF100 [Tesla S2050] 
-      * Unhas das tarxetas atópase temporalmente noutro servidor para unhas probas. Polo tanto, polo de agora só hai unha tarxeta dispoñible. 
-    * Sistema operativo Ubuntu 10.04 
-      * CUDA versión 5.0 
-  * ''ctgpgpu2'' 
-    * Servidor Dell Precision R5400 
-    * 2 procesadores [[http://ark.intel.com/products/33082/|Intel Xeon E5440]] 
-    * 8 GB de memoria RAM (4 DDR2 FB-DIMM a 667 MHz) 
-    * 1 tarxeta Nvidia GK104 [Geforce GTX 680] 
-    * Sistema operativo Ubuntu 18.04 
-      * Slurm (//de uso obrigatorio para a xestión de traballos//) 
-      * CUDA 9.2 (//repositorio oficial de Nvidia//) 
-      * Docker-ce 18.06 (//repositorio oficial de Docker//) 
-      * Nvidia-docker 2.0.3 (//repositorio oficial de Nvidia//) 
-      * Nvidia cuDNN v7.2.1 for CUDA 9.2 
-      * Intel Parallel Studio Professional for C++ 2015 (//licenza única, avisa se vas usalo!//) 
-  * ''ctgpgpu3'': 
-    * Servidor PowerEdge R720 
-    * 1 procesador [[http://ark.intel.com/products/64588|Intel Xeon E52609]] 
-    * 16 GB de memoria RAM (1 DDR3 DIMM a 1600MHz) 
-    * Conectado a un caixón de gráficas con: 
-      * Gigabyte GeForce GTX Titan 6GB (2014) 
-      * Nvidia Titan X Pascal 12GB (2016) 
- 
-    * Sistema operativo Ubuntu 18.04 
-      * Slurm (//de uso obrigatorio para a xestión de traballos//) 
-      * CUDA 9.2 (//repositorio oficial de Nvidia//) 
-      * Docker-ce 18.06 (//repositorio oficial de Docker//) 
-      * Nvidia-docker 2.0.3 (//repositorio oficial de Nvidia//) 
-      * Nvidia cuDNN v7.2.1 for CUDA 9.2 
-      * Intel Parallel Studio Professional for C++ 2015 (//licenza única, avisa se vas usalo!//) 
-      * ROS Melodic Morenia (//repositorio oficial de ROS//) 
   * ''ctgpgpu4'':   * ''ctgpgpu4'':
       * Servidor PowerEdge R730       * Servidor PowerEdge R730
       * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]       * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]
       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
-      * 2 tarxeta Nvidia GP102GL 24GB [Tesla P40] +      * 2 Nvidia GP102GL 24GB [Tesla P40] (2016) 
-      * Sistema operativo Centos 7.4 +      * Sistema operativo AlmaLinux 9.1 
-          * docker 17.09 y nvidia-docker 1.0.1 +          * Cuda 12.0 
-          * OpenCV 2.4.5 +          * * **Slurm para la gestión de colas de trabajo de uso obligatorio**
-          * Dliv, Caffe, Caffe2 y pycaffe + 
-          Python 3.4cython, easydict, sonnet +  Servidores no cluster de computación HPC[[ centro:servizos:hpc | Cluster de computación HPC ]] 
-          TensorFlow+  Servidores no CESGA: [[ centro:servizos:cesga | Solicitar acceso ]] 
 + 
 +==== Servidores con gráficas de acceso restrinxido ==== 
   * ''ctgpgpu5'':   * ''ctgpgpu5'':
       * Servidor PowerEdge R730       * Servidor PowerEdge R730
       * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]       * 2 procesadores  [[https://ark.intel.com/products/92980/Intel-Xeon-Processor-E5-2623-v4-10M-Cache-2_60-GHz|Intel Xeon E52623v4]]
       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)       * 128 GB de memoria RAM (4 DDR4 DIMM a 2400MHz)
-      * 2 tarxeta Nvidia GP102GL 24GB [Tesla P40] +      * 2 tarxeta Nvidia GP102GL [Tesla P40] 
-      * Sistema operativo Ubuntu 16.04 +      * Sistema operativo Ubuntu 18.04 
-          * **Slurm para a xestión de colas de traballo de uso obrigatorio**.+          * **Slurm para la gestión de colas de trabajo de uso obligatorio**.
           * ** Modules para la gestión de versiones de bibliotecas**.           * ** Modules para la gestión de versiones de bibliotecas**.
-          * CUDA versión 9.0+          * Driver Nvidia 450.119.03 para CUDA versión 11.0
           * OpenCV 2.4 y 3.4           * OpenCV 2.4 y 3.4
           * Atlas 3.10.3           * Atlas 3.10.3
Liña 71: Liña 38:
       * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz)        * 192 GB de memoria RAM (12 DDR4 DIMM a 2933MHz) 
       * Nvidia Quadro P6000 24GB (2018)       * Nvidia Quadro P6000 24GB (2018)
-      * Sistema operativo Centos 7.7 +      * Nvidia Quadro RTX8000 48GB (2019) 
-          * Driver Nvidia 418.87.00 para CUDA 10.1 +      * 2 x Nvidia A30 24GB (2020) 
-          Docker 19.03 +      * Sistema operativo Centos 7.9 
-          * [[https://github.com/NVIDIA/nvidia-docker | Nvidia-docker  ]] +          * Driver Nvidia 535.86.10 para CUDA 12.2 
-* ''ctgpgpu7'':  +  ''ctgpgpu9'': 
-      * Servidor Dell PowerEdge R740 +      Servidor Dell PowerEdge R750 
-      * 2 procesadores  [[https://ark.intel.com/content/www/us/en/ark/products/193388/intel-xeon-gold-5220-processor-24-75m-cache-2-20-ghz.html|Intel Xeon Gold 5220]] +      * 2 procesadores [[ https://ark.intel.com/content/www/es/es/ark/products/215274/intel-xeon-gold-6326-processor-24m-cache-2-90-ghz.html |Intel Xeon Gold 6326 ]] 
-      * 192 GB de memoria RAM (12 DDR4 DIMM a 2667MHz)  +      * 128 GB de memoria RAM  
-      * 2 x Nvidia Tesla V100S 32GB (2019) +      * 2x NVIDIA Ampere A100 de 80 GB 
-      * Sistema operativo Centos 8.1 +      * Sistema operativo AlmaLinux 8.6 
-          ** Slurm para a xestión de colas de traballo de uso obrigatorio**. +           * Driver NVIDIA 515.48.07 para CUDA 11.7 
-          ** Modules para la gestión de versiones de bibliotecas**. +  * ''ctgpgpu10'': 
-          * Driver Nvidia 440.64.00 para CUDA 10.2 +      * Servidor Dell PowerEdge R750 
-          Docker 19.03 +      * 2 procesadores [[ https://ark.intel.com/content/www/es/es/ark/products/215272/intel-xeon-gold-5317-processor-18m-cache-3-00-ghz.html |Intel Xeon Gold 5317 ]] 
-          * [[  https://github.com/NVIDIA/nvidia-docker Nvidia-docker  ]] +      * 128 GB de memoria RAM  
 +      * NVIDIA Ampere A100 de 80 GB 
 +      * Sistema operativo AlmaLinux 8.7 
 +           Driver NVIDIA 525.60.13 para CUDA 12.0 
 +   ''ctgpgpu11'': 
 +      Servidor Gybabyte  G482-Z54 
 +      * 2 procesadores [[ https://www.amd.com/es/products/cpu/amd-epyc-7413 | AMD EPYC 7413 @2,65 GHz 24c ]] 
 +      256 GB de memoria RAM 
 +      5 x NVIDIA Ampere A100 de 80 GB   
 +      Sistema operativo AlmaLinux 9.1 
 +           * Driver NVIDIA 520.61.05 para CUDA 11.8 
 +  ''ctgpgpu12'': 
 +      Servidor Dell PowerEdge R760 
 +      * 2 procesadores [[ https://ark.intel.com/content/www/xl/es/ark/products/232376.html |Intel Xeon Silver 4410Y ]] 
 +      * 384 GB de memoria RAM  
 +      * 2 x NVIDIA Hopper H100 de 80 GB 
 +      * Sistema operativo AlmaLinux 9.2 
 +           * Driver NVIDIA 535.104.12 para CUDA 12.2
 ===== Alta no servizo ===== ===== Alta no servizo =====
-Todos os usuarios do CITIUS poden acceder a este servizopero para iso deben solicitalo previamente a través do [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Mentres non o fagan, recibirán unha mensaxe de contrasinal incorrecto.+Non todos os servidores están dispoñibles en todo momento para calqueira uso. Para acceder aos servidoreshai que solicitalo previamente a través do [[https://citius.usc.es/uxitic/incidencias/add|formulario de incidencias]]. Os usuarios que non teñan permiso de acceso recibirán unha mensaxe de contrasinal incorrecto.
  
 ===== Manual de usuario ===== ===== Manual de usuario =====
Liña 94: Liña 77:
 Para conectarse ós servidores, debes facelo a través de SSH. O nome e as direccións IP dos servidores son as seguintes: Para conectarse ós servidores, debes facelo a través de SSH. O nome e as direccións IP dos servidores son as seguintes:
  
-  * ctgpgpu1.inv.usc.es - 172.16.242.91:1301 
-  * ctgpgpu2.inv.usc.es - 172.16.242.92:22 
-  * ctgpgpu3.inv.usc.es - 172.16.242.93:22 
   * ctgpgpu4.inv.usc.es - 172.16.242.201:22   * ctgpgpu4.inv.usc.es - 172.16.242.201:22
   * ctgpgpu5.inv.usc.es - 172.16.242.202:22   * ctgpgpu5.inv.usc.es - 172.16.242.202:22
 +  * ctgpgpu6.inv.usc.es - 172.16.242.205:22
 +  * ctgpgpu9.inv.usc.es - 172.16.242.94:22
 +  * ctgpgpu10.inv.usc.es - 172.16.242.95:22
 +  * ctgpgpu11.inv.usc.es - 172.16.242.96:22
 +  * ctgpgpu12.inv.usc.es - 172.16.242.97:22
  
 A conexión só está dispoñible dende a rede do centro. Para conectarse dende outras localizacións ou dende a rede da RAI é preciso facer uso da [[:centro:servizos:vpn:start|VPN]] ou da [[:centro:servizos:pasarela_ssh|parasela SSH]]. A conexión só está dispoñible dende a rede do centro. Para conectarse dende outras localizacións ou dende a rede da RAI é preciso facer uso da [[:centro:servizos:vpn:start|VPN]] ou da [[:centro:servizos:pasarela_ssh|parasela SSH]].
Liña 111: Liña 96:
 ==== Xestión dos traballos con SLURM ==== ==== Xestión dos traballos con SLURM ====
  
-En ''ctgpgpu2'',en ''ctgpgpu3'' e en ''ctgpgpu5'' hai un xestor de colas instalado para enviar traballos e así evitar conflitos entre procesos, xa que non se deben executar dous traballos ó mesmo tempo.+Nos servidores nos que hai un xestor de colas é obrigatorio o seu uso para enviar traballos e así evitar conflitos entre procesos, xa que non se deben executar dous traballos ó mesmo tempo.
  
 Para enviar un traballo á cola utilízase o comando ''srun'': Para enviar un traballo á cola utilízase o comando ''srun'':
Liña 117: Liña 102:
   srun programa_cuda argumentos_programa_cuda   srun programa_cuda argumentos_programa_cuda
  
-O proceso ''srun'' agarda a que o traballo se execute para devolver o control ó usuario. Se non se quere agardar, pódense utilizar xestores de sesións de consola coma ''screen'' (hai dispoñible unha [[centro:ubuntu-12.04-citius:screen|guía en vídeo]] moi sinxela de seguir), e así poder deixar o traballo á espera e desconectar a sesión sen preocuparse e recuperar a saída de consola máis adiante.+O proceso ''srun'' agarda a que o traballo se execute para devolver o control ó usuario. Se non se quere agardar, pódense utilizar xestores de sesións de consola coma ''screen'', e así poder deixar o traballo á espera e desconectar a sesión sen preocuparse e recuperar a saída de consola máis adiante.
  
 Alternativamente, pódese utilizar ''nohup'' e pasar o traballo a segundo plano con ''&''. Neste caso a saída gárdase no arquivo ''nohup.out'': Alternativamente, pódese utilizar ''nohup'' e pasar o traballo a segundo plano con ''&''. Neste caso a saída gárdase no arquivo ''nohup.out'':