Prise en main rapide du cluster de calcul

Linux

Merci de vous rapporter à la section linux.

Par ailleurs, il existe de nombreux tutoriels déjà présents sur le Web. Par exemple, celui-ci.

Démarrer sur le cluster

Utilisation de SLURM

Liens utiles

Quelques liens utiles :

D'autres ressources en français :

Obtenir des informations

SLURM est l'outil de gestion des job utilisé sur le cluster ISEM.

Voir les noeuds de calcul disponibles par files d'attente ou partition :

sinfo

On découvre déjà plusieurs informations importantes :

  • il y a 3 partitions : mem, long et small,
  • la queue par défaut est la queue long (car notée long*),
  • on voit l'état des partitions, leur disponibilité, les noeuds qui les composent [*] et les durées maximales des jobs (exprimée en JJ-HH:MM:SS).

[*] valkyrie-[108-109,209-211] signifie par les exemples les noeuds valkyrie-108, valkyrie-109, valkyrie-209, valkyrie-210 et valkyrie-211.

Plus d'informations disponibles sur les queues avec sinfo -l.

Pour avoir plus de détails par noeud :

sinfo -N -l

Plusieurs états sont possibles :

  • alloc : le noeud est entièrement utilisé,
  • mix : le noeud est partiellement utilisé,
  • idle : le noeud est en attente,
  • drain : le noeud termine les jobs en cours mais n'en accepte pas de nouveau,
  • down : le noeud ne répond pas.

Pour afficher des informations sur un noeud :

scontrol show node <nodename>

"<nodename>" à remplacer par le noeud dont on souhaite connaître les détails.

Voir les partitions et leurs règles :

squeue
# pour rafraichir toutes les 5s
squeue -i 5
# avec un choix des champs ordonnés
squeue -O "username,name:40,partition,nodelist,cpus-per-task,state,timeused,timelimit"
# verifier ses propres jobs
squeue -u $USER

# avec plus de détails sur les partitions
scontrol show partition
scontrol show partition small

Afficher des informations sur les jobs :

scontrol show job <job_id>

Détails sur les partitions

Nom de la partition Nombre de Noeuds Nombre de coeurs DefMemPerCPU (mémoire par coeur par défaut) Temps par défaut Limite de temps
small 5 48 2048 2-00-00-00 7-00-00-00
long 18 704 1024 3-00:00:00 120-00:00:00
mem 2 40 8192 3-00:00:00 31-00:00:00

Le temps est exprimé en DD-HH:MM:SS

L'option --mem-per-cpu=xG (avec xG à remplacer) permet d'écraser la variable DefMemPerCPU.

Info Vous pouvez désormais passer à la section de soumission des jobs

results matching ""

    No results matching ""