Este curso se enmarca dentro una serie de eventos de capacitación para administradores de recursos HPC que está realizando el Laboratorio Nacional de Computación de Alto Rendimiento de Chile (NLHPC). El primer workshop de este ciclo, fue dictado en diciembre pasado, y puedes revisar el video completo ingresando aquí.
En esta oportunidad, el curso estará enfocado en la instalación y configuración del sistema gestor de recursos Slurm, y se realizará el viernes 17 de abril de 10:00 a 12:00 hrs. a través de la plataforma de streaming Zoom.
Contenidos del workshop:
- Software
- ¿Qué es un gestor de recursos?
- Instalación y configuración del gestor de recursos Slurm.
- Particiones.
- QOS.
- Nodos.
- Recursos.
- HA.
- BD.
- Uso y administración de gestor de recursos Slurm
- Uso básico de Slurm:
- Uso del comando srun y sus parámetros.
- Uso del comando sbatch.
- Script básico.
- Encolar, monitorear, cancelar y otras tareas básicas.
- Administrando SLURM:
- Monitoreo de tareas.
- Definición y uso de accounts.
- Definición y uso de assoc.
- Reservando recursos.
- Asignación de prioridades.
- Extensión de tiempos de trabajos.
- Asignación de QOS y particiones.
- Documentación y otros recursos.
- Monitoreo de utilización de recursos:
- Pestat.
- Subutilización de recursos y cancelación automatizada.
- Ejemplos.
- Troubleshooting:
- Monitoreo de logs.
- Desactivar firewall y SELinux.
- Sincronización de hora entre nodos.
- Problemas típicos con tareas en SLURM.
- Uso básico de Slurm:
La duración total del curso será de 2 horas con un break de 15 minutos. Para poder seguir el curso y los comandos que ejecutará el profesor se requieren conocimientos de Linux intermedio-avanzado y conocimientos de lenguaje bash script.
Las inscripciones se encuentran abiertas en el siguiente formulario.