Prise en main rapide du cluster de calcul
Linux
Merci de vous rapporter à la section linux.
Par ailleurs, il existe de nombreux tutoriels déjà présents sur le Web. Par exemple, celui-ci.
Démarrer sur le cluster
Utilisation de SLURM
Liens utiles
Quelques liens utiles :
D'autres ressources en français :
Obtenir des informations
SLURM est l'outil de gestion des job utilisé sur le cluster ISEM.
Voir les noeuds de calcul disponibles par files d'attente ou partition
:
sinfo
On découvre déjà plusieurs informations importantes :
- il y a 3 partitions :
mem
,long
etsmall
, - la queue par défaut est la queue
long
(car notéelong*
), - on voit l'état des partitions, leur disponibilité, les noeuds qui les composent [*] et les durées maximales des jobs (exprimée en JJ-HH:MM:SS).
[*] valkyrie-[108-109,209-211]
signifie par les exemples les noeuds valkyrie-108
, valkyrie-109
, valkyrie-209
, valkyrie-210
et valkyrie-211
.
Plus d'informations disponibles sur les queues avec
sinfo -l
.
Pour avoir plus de détails par noeud :
sinfo -N -l
Plusieurs états sont possibles :
- alloc : le noeud est entièrement utilisé,
- mix : le noeud est partiellement utilisé,
- idle : le noeud est en attente,
- drain : le noeud termine les jobs en cours mais n'en accepte pas de nouveau,
- down : le noeud ne répond pas.
Pour afficher des informations sur un noeud :
scontrol show node <nodename>
"<nodename>
" à remplacer par le noeud dont on souhaite connaître les détails.
Voir les partitions et leurs règles :
squeue
# pour rafraichir toutes les 5s
squeue -i 5
# avec un choix des champs ordonnés
squeue -O "username,name:40,partition,nodelist,cpus-per-task,state,timeused,timelimit"
# verifier ses propres jobs
squeue -u $USER
# avec plus de détails sur les partitions
scontrol show partition
scontrol show partition small
Afficher des informations sur les jobs :
scontrol show job <job_id>
Détails sur les partitions
Nom de la partition | Nombre de Noeuds | Nombre de coeurs | DefMemPerCPU (mémoire par coeur par défaut) | Temps par défaut | Limite de temps |
---|---|---|---|---|---|
small | 5 | 48 | 2048 | 2-00-00-00 | 7-00-00-00 |
long | 18 | 704 | 1024 | 3-00:00:00 | 120-00:00:00 |
mem | 2 | 40 | 8192 | 3-00:00:00 | 31-00:00:00 |
Le temps est exprimé en DD-HH:MM:SS
L'option
--mem-per-cpu=xG
(avec xG à remplacer) permet d'écraser la variableDefMemPerCPU
.Info Vous pouvez désormais passer à la section de soumission des jobs