snakemake_rapidrun_obitools issueshttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_obitools/-/issues2023-02-16T13:37:20Zhttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_obitools/-/issues/17prepare_spygen.R: Add parameter "fastq file extension"2023-02-16T13:37:20Zmbrunoprepare_spygen.R: Add parameter "fastq file extension"mbrunombrunohttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_obitools/-/issues/15Jobs interrupted2022-09-01T08:30:12ZvmarquesJobs interruptedLe pipeline pose un autre problème, les jobs se sont simplement arrêtés sans message d'erreur sur le projet très lourd que je ne parviens toujours pas à traiter
Le projet est localisé ici :
`/media/superdisk/edna/working/lengguru/snake...Le pipeline pose un autre problème, les jobs se sont simplement arrêtés sans message d'erreur sur le projet très lourd que je ne parviens toujours pas à traiter
Le projet est localisé ici :
`/media/superdisk/edna/working/lengguru/snakemake_rapidrun_obitools`
Et les dernières lignes du `nohup` sont celles-ci:
```
[Sat Jun 4 18:27:42 2022]
rule remove_unaligned:
input: results/02_illuminapairedend/180518_SND405_A_L001_AIMI-15.fastq
output: results/03_remove_unaligned/180518_SND405_A_L001_AIMI-15.ali.fastq
log: logs/03_remove_unaligned/180518_SND405_A_L001_AIMI-15.log
jobid: 3896
wildcards: run=180518_SND405_A_L001_AIMI-15
resources: tmpdir=/tmp
Activating conda environment: /media/superdisk/edna/working/lengguru/snakemake_rapidrun_obitools/.snakemake/conda/4d24d54c9f40f55e40baa7b9d8443bfb
[Sun Jun 5 00:35:08 2022]
Finished job 5837.
49 of 9729 steps (1%) done
Select jobs to execute...
[Sun Jun 5 00:35:08 2022]
Job 7618: Assign each sequence record: Other/teleo/180518_SND405_A_L002_AIMI-16
Activating conda environment: /media/superdisk/edna/working/lengguru/snakemake_rapidrun_obitools/.snakemake/conda/4d24d54c9f40f55e40baa7b9d8443bfb
[Sun Jun 5 00:35:08 2022]
Job 5836: Assign each sequence record: Lengguru/teleo/180518_SND405_A_L002_AIMI-16
Activating conda environment: /media/superdisk/edna/working/lengguru/snakemake_rapidrun_obitools/.snakemake/conda/4d24d54c9f40f55e40baa7b9d8443bfb
```mbrunombrunohttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_obitools/-/issues/14Error running pipeline2022-02-17T13:49:44ZvmarquesError running pipelineJ'ai une erreur en lançant ce pipeline sur un projet en particulier (les autres ont marché)
Le projet complet est là
```
/media/superdisk/edna/working/lengguru/snakemake_rapidrun_obitools
```
On dirait que l'erreur initiale provient d...J'ai une erreur en lançant ce pipeline sur un projet en particulier (les autres ont marché)
Le projet complet est là
```
/media/superdisk/edna/working/lengguru/snakemake_rapidrun_obitools
```
On dirait que l'erreur initiale provient d'une étape dont voici le log:
```
vi logs/10_goodlength_samples/Lengguru/teleo/180514_SND405_A_L002_AIMI-14/SPY181026_01.log
results/09_dereplicate_samples/Lengguru/teleo/180514_SND405_A_L002_AIMI-14/SPY181026_01.uniq.fasta 0.0 % |/ ] remain : 00:01:38^Mresults/09_dereplicate_samples/Lengguru/teleo/180514_SND405_A_L002_AIMI-14/SPY181026_01.uniq.fasta 0.0 % |- ] remain : 00:00:00^Mresults/09_dereplicate_samples/Lengguru/teleo/180514_SND405_A_L002_AIMI-14/SPY181026_01.uniq.fasta 0.0 % |\ ] remain : 00:00:01Traceback (most recent call last):
File "/media/superdisk/edna/working/lengguru/snakemake_rapidrun_obitools/.snakemake/conda/4d24d54c/bin/obigrep", line 42, in <module>
for seq in goodSeq(entries):
File "src/obitools/options/_bioseqfilter.pyx", line 79, in sequenceFilterIterator
File "src/obitools/options/_bioseqfilter.pyx", line 52, in obitools.options._bioseqfilter.filterGenerator.sequenceFilter
File "src/obitools/options/_bioseqfilter.pyx", line 53, in genexpr
File "<string>", line 1, in <module>
NameError: name 'seq_length' is not defined
```
Et le config exécuté est celui ci, je n'ai rien vu de manquant concernant les paramètres de longueurs de séquence
```
config/config_lengguru.yaml
```mbrunombrunohttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_obitools/-/issues/12Use less space2022-04-01T12:50:07ZvmarquesUse less spaceThe pipeline uses a lot of space, it is necessary to remove some intermediate results which are not necessary
Example of space used for the med_coastal dataset by folder:
460K ./04_demultiplex_dat
28K ./05_demultiplex_flags
283G ./03_...The pipeline uses a lot of space, it is necessary to remove some intermediate results which are not necessary
Example of space used for the med_coastal dataset by folder:
460K ./04_demultiplex_dat
28K ./05_demultiplex_flags
283G ./03_remove_unaligned
730G ./06_assign_marker_sample_to_sequence
148M ./13_cat_samples_into_runs
161M ./18_table_assigned_sequences
149M ./16_remove_annotations
1.7G ./10_goodlength_samples
132M ./14_dereplicate_runs
237M ./15_taxonomic_assignment
4.0K ./00_flags
1.2M ./01_settings
155M ./12_rm_internal_samples
2.2G ./11_clean_pcrerr_samples
323G ./08_samples
328K ./07_split_fastq_by_sample
6.7G ./09_dereplicate_samples
607G ./02_illuminapairedend
149M ./17_sort_abundance_assigned_sequences
323G ./02b_scaterred
2.3T .
Cleaning necessary for:
- several part of the 02_illuminapairerend
- ./02b_scaterred remove the folder during the pipeline (and the files it contains within the 02_ folder as well)
- gain space with the folders 08_samples & 06_assign_marker_sample_to_sequencehttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_obitools/-/issues/10fastqc step2021-02-19T09:22:00Zpeguerinpierre-edouard.guerin@cefe.cnrs.frfastqc stepadd a fastqc step en amont + eventuellement factoriser le code pour que les folders n'apparaissent qu'une seule fois (trop artisianal lesrules)add a fastqc step en amont + eventuellement factoriser le code pour que les folders n'apparaissent qu'une seule fois (trop artisianal lesrules)https://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_obitools/-/issues/9add job ressources control in config file2021-11-22T10:01:01Zvmarquesadd job ressources control in config filehttps://gitlab.mbb.univ-montp2.fr/edna/snakemake_rapidrun_obitools/-/issues/5Too much data -- heavy files2022-04-01T12:41:42ZvmarquesToo much data -- heavy filesLa pipeline fonctionne, mais génère une très grosse quantité de données (chaque dossier est extrêmement lourd)
Il pourrait être nécessaire de vérifier quelles sont les données intermédiaires réellement nécessaires et d'automatiser la su...La pipeline fonctionne, mais génère une très grosse quantité de données (chaque dossier est extrêmement lourd)
Il pourrait être nécessaire de vérifier quelles sont les données intermédiaires réellement nécessaires et d'automatiser la suppression de certains fichiers pour alléger la place occupée sur les disquespeguerinpierre-edouard.guerin@cefe.cnrs.frpeguerinpierre-edouard.guerin@cefe.cnrs.fr