snakemake_rapidrun_swarm issueshttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues2023-03-02T14:15:38Zhttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/40VSEARCH: 100% not merged2023-03-02T14:15:38ZmbrunoVSEARCH: 100% not mergedProblem during the merging of reads from run `MB0922AE2`
Vsearch:
- version: v2.22.1
- shell: vsearch --threads 4 --fastq_mergepairs /media/superdisk/edna/donnees/ngs/CEFE_Port/VL226___MB0922AE2___R1.fastq.gz --reverse /media/s...Problem during the merging of reads from run `MB0922AE2`
Vsearch:
- version: v2.22.1
- shell: vsearch --threads 4 --fastq_mergepairs /media/superdisk/edna/donnees/ngs/CEFE_Port/VL226___MB0922AE2___R1.fastq.gz --reverse /media/superdisk/edna/donnees/ngs/CEFE_Port/VL226___MB0922AE2___R2.fastq.gz --fastqout /media/superdisk/edna/working/MedPorteDNA/snakemake_rapidrun_swarm_teleo/results/swarm/intermediates/02_merge_fastq/VL226___MB0922AE2__.fastq --fastq_ascii 33 --fastq_allowmergestagger 2> /media/superdisk/edna/working/MedPorteDNA/snakemake_rapidrun_swarm_teleo/logs/swarm/intermediates/02_merge_fastq/VL226___MB0922AE2__.log
Log: `/media/superdisk/edna/working/MedPorteDNA/snakemake_rapidrun_swarm_teleo/logs/swarm/intermediates/02_merge_fastq/VL226___MB0922AE2__.log `
```
12453407 Pairs
3827 Merged (0.0%)
12449580 Not merged (100.0%)
Pairs that failed merging due to various reasons:
38151 too few kmers found on same diagonal
91 multiple potential alignments
42 too many differences
12411296 alignment score too low, or score drop too high
Statistics of all reads:
150.00 Mean read length
Statistics of merged reads:
53.85 Mean fragment length
91.64 Standard deviation of fragment length
0.13 Mean expected error in forward sequences
0.13 Mean expected error in reverse sequences
0.30 Mean expected error in merged sequences
0.34 Mean observed errors in merged region of forward sequences
0.16 Mean observed errors in merged region of reverse sequences
0.49 Mean observed errors in merged region
```https://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/39OTU_contingency_table.py: ValueError: invalid mode: 'rU'2023-02-17T10:00:46ZmbrunoOTU_contingency_table.py: ValueError: invalid mode: 'rU'Traceback (most recent call last):
File "/media/superdisk/edna/working/MedPorteDNA/snakemake_rapidrun_swarm_metazoa/scripts/OTU_contingency_table.py", line 233, in <module>
main()
File "/media/superdisk/edna/working/MedPorteDNA/s...Traceback (most recent call last):
File "/media/superdisk/edna/working/MedPorteDNA/snakemake_rapidrun_swarm_metazoa/scripts/OTU_contingency_table.py", line 233, in <module>
main()
File "/media/superdisk/edna/working/MedPorteDNA/snakemake_rapidrun_swarm_metazoa/scripts/OTU_contingency_table.py", line 205, in main
representatives = representatives_parse()
^^^^^^^^^^^^^^^^^^^^^^^
File "/media/superdisk/edna/working/MedPorteDNA/snakemake_rapidrun_swarm_metazoa/scripts/OTU_contingency_table.py", line 31, in representatives_parse
with open(representatives_file, "rU") as representatives_file:
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
ValueError: invalid mode: 'rU'mbrunombrunohttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/38Could not create conda environment envs/env_scripts_python.yaml2023-02-16T14:15:45ZmbrunoCould not create conda environment envs/env_scripts_python.yaml```
CreateCondaEnvironmentException:
Could not create conda environment from /media/superdisk/edna/working/MedPorteDNA/snakemake_rapidrun_swarm_teleo/rules/../envs/env_scripts_python.yaml:
Command:
mamba env create --quiet --file "/media...```
CreateCondaEnvironmentException:
Could not create conda environment from /media/superdisk/edna/working/MedPorteDNA/snakemake_rapidrun_swarm_teleo/rules/../envs/env_scripts_python.yaml:
Command:
mamba env create --quiet --file "/media/superdisk/edna/working/MedPorteDNA/snakemake_rapidrun_swarm_teleo/.snakemake/conda/4046e3c1fc4530fa00ed42fc07a0b6d4_.yaml" --prefix "/media/superdisk/edna/working/MedPorteDNA/snakemake_rapidrun_swarm_teleo/.snakemake/conda/4046e3c1fc4530fa00ed42fc07a0b6d4_"
Output:
Could not solve for environment specs
Encountered problems while solving:
- package biopython-1.78-py310h7f8727e_0 is excluded by strict repo priority
```mbrunombrunohttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/37prepare_spygen enhancements ideas2022-10-05T14:19:34Zvmarquesprepare_spygen enhancements ideasUne idée pour améliorer le script de prepare_spygen pour préparer les métadonnées:
- Supprimer la gestion des noms de projets comme déjà évoqué sur une autre issue
- Ajouter le renommage des échantillons assignés aux projets "Other" e...Une idée pour améliorer le script de prepare_spygen pour préparer les métadonnées:
- Supprimer la gestion des noms de projets comme déjà évoqué sur une autre issue
- Ajouter le renommage des échantillons assignés aux projets "Other" et aux contrôles PCR
Ce changement permettrait de facilement combiner des sources de données sans se soucier de renommer les samples Other, car il ne doit pas y avoir de duplicata de noms d'échantillons.
On pourrait nommer les noms d'échantillons Other par la combinaison des positions de plaque et du run.
Ex: Other_123 deviendrait Other_P1A1_AIMI-288
De cette façon, les noms d'échantillons Other seraient toujours uniques et on en amont, on ne se préoccupe pas du fait que ce soit unique ou non
Les contrôles PCR sont liés au projet analysés, mais leur nom est souvent similaires entre librairies. On pourrait les renommer de la même façon.
Ex: CPCR_12 deviendrait CPCR_P1A2_AIMI-250https://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/36taxonomic_assignment med_coastal lambda failed because nonetype object2021-06-17T15:07:46Zpeguerinpierre-edouard.guerin@cefe.cnrs.frtaxonomic_assignment med_coastal lambda failed because nonetype objectSalut PE ! J'espère que tu t'en sors avec les démarches et le déménagement !
J'ai un petit soucis sur la pipeline. J'essaie de lancer la pipeline entière sur la Med mais ça me sort une erreur que je comprend pas.
Tu peux jeter un oeil au...Salut PE ! J'espère que tu t'en sors avec les démarches et le déménagement !
J'ai un petit soucis sur la pipeline. J'essaie de lancer la pipeline entière sur la Med mais ça me sort une erreur que je comprend pas.
Tu peux jeter un oeil au nohup dans `/media/superdisk/edna/working/med_coastal/snakemake_rapidrun_swarm` quand tu auras 5 min stp
```
InputFunctionException in line 5 of /media/superdisk/edna/working/med_coastal/sn
akemake_rapidrun_swarm/rules/taxonomic_assignment.smk:
Error:
TypeError: 'NoneType' object is not subscriptable
Wildcards:
projmark=Blank/teleo
Traceback:
File "/media/superdisk/edna/working/med_coastal/snakemake_rapidrun_swarm/rules/taxonomic_assignment.smk", line 12, in <lambda>
```https://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/35add documentation python script (description files)2021-06-21T13:31:28Zvmarquesadd documentation python script (description files)https://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/34simplify workflow to have less steps and less heavy intermediate results2021-06-04T11:44:48Zvmarquessimplify workflow to have less steps and less heavy intermediate results- [x] remove "quality" steps
- [x] update schema
- [ ] update doc
- [ ] other ???- [x] remove "quality" steps
- [x] update schema
- [ ] update doc
- [ ] other ???https://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/33Add multicore option for demultiplexing2021-06-04T14:43:01ZvmarquesAdd multicore option for demultiplexingpeguerinpierre-edouard.guerin@cefe.cnrs.frpeguerinpierre-edouard.guerin@cefe.cnrs.frhttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/32prepare spygen file - ameliorations2021-04-22T14:09:51Zvmarquesprepare spygen file - ameliorations* [x] parametres alice file, dat file, le nom du projet
* [x] documentation
* [x] check mamm a disparu pour antarctique
* [x] factoriser liste des mots pour le projet other
* [x] factoriser liste des mots pour le projet notreprojet
* [ ...* [x] parametres alice file, dat file, le nom du projet
* [x] documentation
* [x] check mamm a disparu pour antarctique
* [x] factoriser liste des mots pour le projet other
* [x] factoriser liste des mots pour le projet notreprojet
* [ ] verifier que les dat ont des plaques-tags uniques
* [x] Other = OTHER
* [x] chercher la correspondance plaques-tags sur le dat du markerr qui correspond dans le fichier alice
* [x] les noms des marqueurs doivent pouvoir etre majuscule ou pas (y compris les noms des fichiers dat)https://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/31error when running pipeline project2021-06-04T09:37:20Zvmarqueserror when running pipeline projecti have an error when i run the project antarctique
on the last release using the custom python script to add the blank filters
see there
```
/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm
```
the error codes gives...i have an error when i run the project antarctique
on the last release using the custom python script to add the blank filters
see there
```
/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm
```
the error codes gives this
```
Traceback (most recent call last):
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/bin/cutadapt", line 10, in <module>
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/cutadapt/__main__.py", line 845, in main_cli
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/cutadapt/__main__.py", line 899, in main
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/cutadapt/__main__.py", line 437, in open_output_files
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/cutadapt/__main__.py", line 504, in open_demultiplex_out
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/cutadapt/utils.py", line 167, in xopen
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/xopen/__init__.py", line 615, in xopen
OSError: [Errno 24] Too many open files: 'results/intermediates/03_demultiplex_tag/Blank/vert/blank_vert_201019_NB501850_A_L1-4_AIMI-274_253.fastq'
Traceback (most recent call last):
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/bin/cutadapt", line 10, in <module>
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/cutadapt/__main__.py", line 845, in main_cli
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/cutadapt/__main__.py", line 899, in main
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/cutadapt/__main__.py", line 437, in open_output_files
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/cutadapt/__main__.py", line 504, in open_demultiplex_out
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/cutadapt/utils.py", line 167, in xopen
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8/lib/python3.8/site-packages/xopen/__init__.py", line 615, in xopen
OSError: [Errno 24] Too many open files: 'results/intermediates/03_demultiplex_tag/Blank/vert/blank_vert_201104_NB501850_A_L1-4_AIMI-270_254.fastq'
[Fri Feb 26 19:27:58 2021]
Error in rule demultiplex_tag:
jobid: 33750
output: results/intermediates/03_demultiplex_tag/flags/201019_NB501850_A_L1-4_AIMI-274_demultiplex_tag.done
log: logs/intermediates/03_demultiplex_tag/201019_NB501850_A_L1-4_AIMI-274.log (check log file(s) for error message)
conda-env: /media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8
shell:
cutadapt -m 20 --revcomp -O 8 --discard-untrimmed -g file:results/intermediates/01_settings/barcodes/201019_NB501850_A_L1-4_AIMI-274.fasta results/intermediates/02_merge_fastq/201019_NB501850_A_L1-4_AIMI-274.fastq -o {name}.fastq > logs/intermediates/03_demultiplex_tag/201019_NB501850_A_L1-4_AIMI-274.log
wait
bash scripts/cp_duplicated_barcode.sh results/intermediates/01_settings/barcodes/201019_NB501850_A_L1-4_AIMI-274_duplicated.csv
wait
bash scripts/check_missing_files.sh results/intermediates/01_settings/barcodes/201019_NB501850_A_L1-4_AIMI-274.fasta >> logs/intermediates/03_demultiplex_tag/201019_NB501850_A_L1-4_AIMI-274.log
wait
touch results/intermediates/03_demultiplex_tag/flags/201019_NB501850_A_L1-4_AIMI-274_demultiplex_tag.done
(one of the commands exited with non-zero exit code; note that snakemake uses bash strict mode!)
[Fri Feb 26 19:27:58 2021]
Error in rule demultiplex_tag:
jobid: 33746
output: results/intermediates/03_demultiplex_tag/flags/201104_NB501850_A_L1-4_AIMI-270_demultiplex_tag.done
log: logs/intermediates/03_demultiplex_tag/201104_NB501850_A_L1-4_AIMI-270.log (check log file(s) for error message)
conda-env: /media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/.snakemake/conda/23ff45b8
shell:
cutadapt -m 20 --revcomp -O 8 --discard-untrimmed -g file:results/intermediates/01_settings/barcodes/201104_NB501850_A_L1-4_AIMI-270.fasta results/intermediates/02_merge_fastq/201104_NB501850_A_L1-4_AIMI-270.fastq -o {name}.fastq > logs/intermediates/03_demultiplex_tag/201104_NB501850_A_L1-4_AIMI-270.log
wait
bash scripts/cp_duplicated_barcode.sh results/intermediates/01_settings/barcodes/201104_NB501850_A_L1-4_AIMI-270_duplicated.csv
wait
bash scripts/check_missing_files.sh results/intermediates/01_settings/barcodes/201104_NB501850_A_L1-4_AIMI-270.fasta >> logs/intermediates/03_demultiplex_tag/201104_NB501850_A_L1-4_AIMI-270.log
wait
touch results/intermediates/03_demultiplex_tag/flags/201104_NB501850_A_L1-4_AIMI-270_demultiplex_tag.done
(one of the commands exited with non-zero exit code; note that snakemake uses bash strict mode!)
```peguerinpierre-edouard.guerin@cefe.cnrs.frpeguerinpierre-edouard.guerin@cefe.cnrs.frhttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/29error empty files all.fasta step 14 & 152021-02-22T14:02:02Zvmarqueserror empty files all.fasta step 14 & 15Il y a une erreur qui stoppe le pipeline lorsque des fichiers sont vides à l'étape 14_projetmarker_cat_fasta
L'étape suivante de déréplication (15_projetmarker_dereplicate_sequences) se stoppe s'il trouve un fichier vide
Or parfois (da...Il y a une erreur qui stoppe le pipeline lorsque des fichiers sont vides à l'étape 14_projetmarker_cat_fasta
L'étape suivante de déréplication (15_projetmarker_dereplicate_sequences) se stoppe s'il trouve un fichier vide
Or parfois (dans les blancs uniquement probablement), on n'a aucune séquence à cette étape, ce qui est normal
A vérifier aussi que ça ne fasse pas planter le reste des étapes, car on a rarement testé la possibilité d'avoir un fichier nul à ce stade du pipeline
Voir le projet en question sur cette adresse:
```
/media/superdisk/edna/working/santamarta_providencia/snakemake_rapidrun_swarm
```https://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/28error running one project2021-02-22T12:38:43Zvmarqueserror running one projectJ'ai une erreur en lançant le workflow sur les données antarctique, ça vient du début du code sur la création de all_demultiplex.csv en python
```
IndexError in line 179 of /media/superdisk/edna/working/antarctique/snakemake_rapidrun_sw...J'ai une erreur en lançant le workflow sur les données antarctique, ça vient du début du code sur la création de all_demultiplex.csv en python
```
IndexError in line 179 of /media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/Snakefile:
index 0 is out of bounds for axis 0 with size 0
File "/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm/Snakefile", line 179, in <module>
RAPIDRUN data: many markers for many runs
```
localisation
`/media/superdisk/edna/working/antarctique/snakemake_rapidrun_swarm`https://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/27fastqc step2021-02-23T16:09:31Zpeguerinpierre-edouard.guerin@cefe.cnrs.frfastqc stepajouter une eetape fastqc en amontajouter une eetape fastqc en amonthttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/26soigner la presentation et la doc2021-06-04T09:21:59Zpeguerinpierre-edouard.guerin@cefe.cnrs.frsoigner la presentation et la docS'inspirer de samba pour la présentation
https://github.com/ifremer-bioinformatics/samba
excellent autre exemple egalement:
https://github.com/nf-core/dualrnaseqS'inspirer de samba pour la présentation
https://github.com/ifremer-bioinformatics/samba
excellent autre exemple egalement:
https://github.com/nf-core/dualrnaseqhttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/25error rule duplicate samples2021-02-22T14:03:06Zvmarqueserror rule duplicate samplesHello! Je suis en train de tout re-runner et j’ai un petit soucis pour un pipeline, je comprend pas bien l’erreur (sur swarm)
```
WorkflowError in line 287 of /media/superdisk/edna/working/eparses/snakemake_rapidrun_swarm/Snakefile:
Du...Hello! Je suis en train de tout re-runner et j’ai un petit soucis pour un pipeline, je comprend pas bien l’erreur (sur swarm)
```
WorkflowError in line 287 of /media/superdisk/edna/working/eparses/snakemake_rapidrun_swarm/Snakefile:
Duplicate output file pattern in rule checkpoint_demultiplexed_samples_fastq. First two duplicate for entries 767 and 1127
File "/media/superdisk/edna/working/eparses/snakemake_rapidrun_swarm/Snakefile", line 287, in <module>
```
on dirait que ça veut dire qu’on a duplicat des noms de samples, mais quand je vérifie sur le fichier all_samples.csv, je n’en vois pas...
voici la localisation du dossier où l’erreur est apparue
/media/superdisk/edna/working/eparses/snakemake_rapidrun_swarm
et le all_samples
`/media/superdisk/edna/donnees/ngs/Eparses/metadata/all_samples.csv`
`sort all_samples.csv | uniq --count --repeated`peguerinpierre-edouard.guerin@cefe.cnrs.frpeguerinpierre-edouard.guerin@cefe.cnrs.frhttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/24probleme demultiplexing2021-02-11T09:32:02Zpeguerinpierre-edouard.guerin@cefe.cnrs.frprobleme demultiplexingbug découvert par Virginie Marques:
C’est bon je pense que j’ai trouvé
il faut modifié le fichier qui gère les linked adapter et rajouter un code pour lui dire que l’overlap doit être complet, il semble pas le gérer en défaut
```
"AACC...bug découvert par Virginie Marques:
C’est bon je pense que j’ai trouvé
il faut modifié le fichier qui gère les linked adapter et rajouter un code pour lui dire que l’overlap doit être complet, il semble pas le gérer en défaut
```
"AACCTAGC;min_overlap=8...GCTAGGTT;min_overlap=8"
```
je veux bien que tu fasses des tests aussi si tu peux/as le temps car je suis pas à l’abri d’avoir fait une connerie et loupé qqchose
il y a rien a changé d’autre uqe ça normalement, j’ai testé plein d’autres options en -- mais juste rajouter l’overlap ça fonctionne
la valeur de 8 c’est la longueur des nucléotides du tag
ou sinon, à priori, rajouter -O 8 c’est un raccourci
dans la commande
pour éviter de modifier le texte des linked adapters
j’espère vraiment en voir le bout des merdes du demultiplex, cutadapt a de drôles de valeurs par défauthttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/23run snakemake on cluster Sun Grid Engine MBB2021-01-19T16:42:58Zpeguerinpierre-edouard.guerin@cefe.cnrs.frrun snakemake on cluster Sun Grid Engine MBBVoir pour lancer des jobs sur le cluster MBB avec snakemake
https://snakemake.readthedocs.io/en/v3.13.2/executable.html#cluster-executionVoir pour lancer des jobs sur le cluster MBB avec snakemake
https://snakemake.readthedocs.io/en/v3.13.2/executable.html#cluster-executionhttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/22deploy the workflow on ELIXIR cloud VM2021-01-19T16:41:35Zpeguerinpierre-edouard.guerin@cefe.cnrs.frdeploy the workflow on ELIXIR cloud VMSe renseigner sur les machines virtuelles et comment les utiliser sur https://elixir-europe.org/Se renseigner sur les machines virtuelles et comment les utiliser sur https://elixir-europe.org/https://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/21RAPIDRUN mode tutorial2021-01-19T16:40:10Zpeguerinpierre-edouard.guerin@cefe.cnrs.frRAPIDRUN mode tutorialhttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_swarm/-/issues/20CLASSIC mode tutorial2021-11-22T10:03:17Zpeguerinpierre-edouard.guerin@cefe.cnrs.frCLASSIC mode tutorial