ÉQUIPE
Biologie Computationelle
Responsable d'équipe : B. Habermann
Le groupe de biologie computationnelle essaie de répondre à des problèmes biologiques en utilisant des méthodes de calcul. Nous avons deux axes principaux de recherche : tout d’abord, nous nous intéressons à l’intégration de données à grande échelle, en se concentrant sur la fonction mitochondriale au cours du développement et dans un contexte pathologique ; deuxièmement, nous développons des méthodes de comparaison de séquences isolées, avec l’accent mis sur la prédiction de novo de motifs protéiques courts et fonctionnels.
RÉSUMÉ GRAND PUBLIC
Les analyses et calculs informatiques apportent des approches complémentaires à la recherche biologique depuis longtemps. Avec le début du séquençage et le décryptage du code génétique, des méthodes ont été développées permettant l’analyse de ce type de données. Le séquençage partiel ou entier des génomes nous a permis, par exemple, d’établir une vision plus fine sur l’évolution des espèces.
Au cours des dernières années, les cribles à grande échelle et le séquençage de nouvelle génération génèrent une quantité énorme de données, qui ne peuvent être analysées – ou comprises – sans l’aide de techniques de calcul. Notre laboratoire travaille dans l’analyse assistée des données biologiques par ordinateur.
Notre équipe aborde deux aspects de la biologie computationnelle :
Premièrement, nous voulons permettre l’utilisation de l’information biologique disponible à ce jour et l’intégrer dans une perspective des systèmes biologiques, dans un contexte développemental ou pathologique. Nous avons choisi les mitochondries pour démontrer l’utilité de l’intégration de données à grande échelle afin de comprendre un système biologique. Les mitochondries sont les usines énergétiques de la cellule. Elles fournissent non seulement l’énergie de la cellule, mais sont aussi impliquées dans de nombreuses fonctions métaboliques. Leur rôle central dans le développement cellulaire et également dans l’homéostasie en fait une cible idéale pour étudier les changements qui ont lieu dans le système mitochondrial. Nous développons des méthodes pour l’interprétation et l’intégration des données biologiques afin de comprendre le changement de fonction des mitochondries dans un tissu en cours de développement ou dans un contexte pathologique comme la maladie de Parkinson ou le cancer.
Deuxièmement, nous travaillons avec les similarités de séquences protéiques dans la zone dite d’ombre (deux protéines apparentées ayant subies un certain nombres de mutations ne permettant plus de pouvoir détecter leurs similarités séquentielles). Nous avons développé des procédés pour détecter des relations évolutives distantes entre protéines homologues, domaines fonctionnels conservés, ainsi qu’entre protéines orthologues conservées. Actuellement, nous travaillons sur des méthodes de prédiction de novo de motifs protéiques courts et fonctionnels : peut-on, sans aucune information préalable, identifier une courte séquence dans une protéine, qui effectue une fonction spécifique, telle que la liaison à une autre protéine ou à un ligand ? Nous abordons ce problème en utilisant soit uniquement la séquence de la protéine, soit sa structure tridimensionnelle.
RÉSUMÉ SPÉCIALISTES
Intégration de données à grande échelle
Nous travaillons sur l’intégration de données à grande échelle à partir de différentes ressources afin d’en extraire l’information biologique significative. Nous utilisons principalement les données NGS qui intègrent des données d’expressions différentielles (ChiP-seq ; interactome) dans le but de fournir aux biologistes de nouvelles hypothèses à tester. Pour ce faire, nous développons des méthodes d’intégration de données qui sont faciles d’utilisation pour les non- experts.
Pour montrer la faisabilité de nos méthodes, nous avons choisi le système mitochondrial, car il représente l’organelle central pour les fonctions métaboliques et la production d’énergie dans la cellule. Il est expérimentalement très bien caractérisé, au niveau de sa composition en protéines et des voies enzymatiques impliquées. C’est un système efficace nous permettant d’examiner les changements de la fonction mitochondriale dans différentes conditions cellulaires.
MitoXplore – comprendre la fonction mitochondriale dans un contexte développemental ou pathologique
Nous développons la plateforme MitoXplore, un outil web permettant l’intégration de données d’expression et de mutation à grande échelle avec l’interactome mitochondrial.
En utilisant des pipelines spécialisés pour l’analyse de données NGS, les données de mutation et d’expression pour toutes les protéines localisées dans les mitochondries sont extraites, quelle que soit leur localisation génomique (mitochondrial ou génome nucléaire). Nous intégrons ensuite ces données avec l’interactome mitochondrial qui a été assemblé et nettoyé manuellement, et nous formalisons les changements observés dans différentes conditions expérimentales ou pathologiques. Cela permet une visualisation facile et rapide, offrant ainsi de comparer différents ensembles de données par rapport à leurs fonctions mitochondriales. Ce projet est soutenu par une subvention DFG ‘Systems biological analysis of cancer genomes using deductive databases’.
AnnoMiner – l’intégration des données de ChIP-seq
AnnoMiner intègre la détection de pics issus des expériences de ChIP-seq en utilisant des critères de recouvrement heuristiques. Notre algorithme peut être utilisé pour annoter les pics de ChIP-seq avec des caractéristiques génomiques comme les gènes ou la comparaison des profils de ChIP-seq. Une deuxième caractéristique de AnnoMiner est d’utiliser les profils de ChIP-seq disponibles pour l’analyse de l’enrichissement des études d’expression à grande échelle. Tout comme la recherche de l’enrichissement de sites de liaison dans les éléments régulateurs de gènes exprimés de manière différentielle, nous pouvons regarder l’enrichissement des pics de ChIP-seq à partir de ressources publiques afin de trouver des facteurs régulateurs potentiels impliqués dans l’expression différentielle. AnnoMiner est disponible pour tous les organismes modèles et sera disponible en web-service.
Des réseaux biologiques pour l’analyse, l’intégration et la visualisation de données
Les réseaux biologiques tels que les réseaux d’interaction protéine-protéine ou les réseaux de régulation génique font partie intégrante de la compréhension des systèmes biologiques. Nous utilisons ces réseaux afin d’interpréter et d’intégrer des données à grande échelle provenant des études d’expression. Nous avons développé plusieurs algorithmes pour 1 ) la génération de réseaux d’interactions protéiques non redondants ( miMerge , miScore ( Villaveces , et al . , Base de données , 2015 ) ) , 2 ) la visualisation et l’intégration des données de voie de signalisation ( KEGGviewer ( Villaveces , et al . , F100Res 3:43 , 2014) , PsiquicGraph ( Villaveces , et al . , F100Res 3:44 , 2014) ), tous deux disponibles via la plateforme BioJS , ainsi que 3 ) les plugins Cytoscape pour la génération de réseaux et de voies biologiques ( Viper & Peanut ( . Garmhausen et al, BMC Genomics 16 : 790, 2015) ) .
Analyse de séquences distantes – prédiction de motifs de novo et détection d’orthologie dans la zone d’ombre
Notre point de vue sur l’évolution darwinienne indique que cette dernière est le résultat de changements aléatoires de notre code génétique combiné avec le processus de sélection naturelle. De nombreux changements mineurs sur une longue période de temps ont un impact majeur sur l’évolution. Par conséquent, la similitude entre les séquences de deux gènes orthologues peut être est faible, ce que nous appelons conservation dans la zone d’ombre.
Détection de relations d’orthologie distantes
Notre équipe s’intéresse à la découverte de gènes ou protéines orthologues distants. L’identification de protéines orthologues est l’une des tâches essentielles en biologie computationnelle : il est nécessaire de connaître les orthologues d’une protéine afin d’en comprendre son évolution. Les orthologues nous disent aussi si une protéine conservée au sein des espèces modèles est impliquées au-delà des territoires connus.
Les orthologues sont également importants pour la recherche à la paillasse : nous transférons des informations fonctionnelles grâce aux relations d’orthologie et pouvons donc fournir de nouvelles hypothèses à tester sur la fonction d’une protéine.
Le niveau de conservation de séquence, même entre orthologues, peut parfois être en dessous de la limite de détection par les logiciels standard et les paramètres utilisés.
Nous avons abordé ce problème et développé un service web, morFeus (Wagner, et al, BMC Bioinformatics 15 (1), 263, 2014;. Utilisation gratuite ici : http://bio.biochem.mpg.de/morfeus/) pour la détection d’orthologues dans la zone d’ombre de similarité de séquence.
Nous comparons les représentations binaires pondérées des alignements de séquences à partir de résultats de BLAST et clustérisons les scores en fonction de leur similarité. Des recherches itératives réciproques par BLAST sont effectuées pour vérifier l’orthologie. La requête mais aussi la connaissance d’autres orthologues permettent d’établir des liens d’orthologie et d’inclure ces résultats pour relancer les recherches réciproques par BLAST. La dernière étape permet la création d’un réseau d‘orthologie avec un calcul de score (centrality scoring) indépendant de la E-value du BLAST pour des orthologues putatifs. Nous avons comparé morFeus à HomoloGene et Inparanoid et avons obtenu une sensibilité nettement plus élevée avec une spécificité égale.
Découverte de motifs de novo dans les séquences protéiques
Les motifs protéiques sont définis comme des unités fonctionnelles autonomes. Ils sont généralement composés de 3 à 23 acides aminés et ont différentes fonctions dans les protéines. Ils peuvent servir de sites de clivage, sont nécessaires pour la dégradation protéosomale, sont impliqués dans l’amarrage et la liaison du ligand, servent de signaux de modification post-traductionnelle ou sont des signaux pour la localisation subcellulaire. Sans information au préalable sur la localisation ou la nature du motif et de fait de leur petite taille et d’un manque de conservation évident entre les séquences, ces motifs sont très difficiles à trouver de novo. Nous cherchons à identifier des motifs fonctionnels courts dans les protéines de novo. Nous effectuons des comparaisons de profils d’évolution restrictifs pour détecter des motifs communs dans un ensemble de protéines non apparentées. En collaboration avec les chercheurs en laboratoire, nous testons expérimentalement nos motifs prédits.
Découverte de motifs structurels courts dans les structures tridimensionnelles des protéines
Proche des méthodes basées sur les séquences, nous cherchons des motifs structuraux dans les protéines. Pouvons-nous prédire des patchs potentiels à la surface des protéines, responsables des interactions protéiques ou des interactions protéine-ligand ? Nous utilisons des méthodes statistiques pour identifier des motifs potentiels, structuraux et fonctionnels, dans les structures tridimensionnelles des protéines.
Selected publications
PUBLICATION
December 4th, 2019
mitoXplorer, a Visual Data Mining Platform to Systematically Analyze and Visualize Mitochondrial Expression Dynamics and Mutations
PUBLICATION
December 3rd, 2019
Whole-genome Comparison Between the Type Strain of Halobacterium Salinarum (DSM 3754 T ) and the Laboratory Strains R1 and NRC-1
PUBLICATION
November 29th, 2018
Phenotypic and genomic comparison of Photorhabdus luminescens subsp. laumondii TT01 and a widely used rifampicin-resistant Photorhabdus luminescens laboratory strain
PUBLICATION
August 8th, 2018
Hypermethylation of gene body CpG islands predicts high dosage of functional oncogenes in liver cancer
PUBLICATION
May 30th, 2018
A transcriptomics resource reveals a transcriptional transition during ordered sarcomere morphogenesis in flight muscle.
PUBLICATION
April 24th, 2018
Integrative analysis and machine learning on cancer genomics data using the Cancer Systems Biology Database (CancerSysDB).
PUBLICATION
March 14th, 2018
The deregulated microRNAome contributes to the cellular response to aneuploidy.
PUBLICATION
January 28th, 2018
SLALOM, a flexible method for the identification and statistical analysis of overlapping continuous sequence elements in sequence- and time-series data
PUBLICATION
January 24th, 2018
The axolotl genome and the evolution of key tissue formation regulators.
PUBLICATION
January 5th, 2018
The complete and fully assembled genome sequence of Aeromonas salmonicida subsp. pectinolytica and its comparative analysis with other Aeromonas species: investigation of the mobilome in environmental and pathogenic strains.
PUBLICATION
April 29th, 2017
HH-MOTiF: de novo detection of short linear motifs in proteins by Hidden Markov Model comparisons
PUBLICATION
March 27th, 2017
Revision and reannotation of the Halomonas elongata DSM 2581T genome.
PUBLICATION
March 9th, 2017
A Guide to Computational Methods for Predicting Mitochondrial Localization.
PUBLICATION
September 21st, 2016
Oh Brother, Where Art Thou? Finding Orthologs in the Twilight and Midnight Zones of Sequence Similarity
PUBLICATION
October 14th, 2015
Virtual pathway explorer (viPEr) and pathway enrichment analysis tool (PEANuT): creating and analyzing focus networks to identify cross-talk between molecules and pathways.
PUBLICATION
June 4th, 2015
Tools for visualization and analysis of molecular networks, pathways, and -omics data.
PUBLICATION
February 4th, 2015
Merging and scoring molecular interactions utilising existing community standards: tools, use-cases and a case study.
PUBLICATION
August 6th, 2014
morFeus: a web-based program to detect remotely conserved orthologs using symmetrical best hits and orthology network scoring.
PUBLICATION
February 13th, 2014
KEGGViewer, a BioJS component to visualize KEGG Pathways.
PUBLICATION
February 13th, 2014
PsicquicGraph, a BioJS component to visualize molecular interactions from PSICQUIC servers.
PUBLICATION
August 29th, 2012
Designing efficient and specific endoribonuclease-prepared siRNAs.
PUBLICATION
March 10th, 2011
HMMerThread: detecting remote, functional conserved domains in entire genomes by combining relaxed sequence-database searches with fold recognition.
PUBLICATION
June 5th, 2010
SeLOX--a locus of recombination site search tool for the detection and directed evolution of site-specific recombination systems.
PUBLICATION
March 11th, 2007
Genome-wide resources of endoribonuclease-prepared short interfering RNAs for specific loss-of-function studies.
PUBLICATION
October 23rd, 2006
ProFAT: a web-based tool for the functional annotation of protein sequences.
PUBLICATION
August 13th, 2004
An Ambystoma mexicanum EST sequencing project: analysis of 17,352 expressed sequence tags from embryonic and regenerating blastema cDNA libraries.
PUBLICATION
July 1st, 2004
DEQOR: a web-based tool for the design and quality control of siRNAs.
PUBLICATION
March 5th, 2004
The BAR-domain family of proteins: a case of bending and binding?
PUBLICATION
March 1st, 2004
The power and the limitations of cross-species protein identification by mass spectrometry-driven sequence similarity searches.
PUBLICATION
December 6th, 2018
Evaluating the landscape of gene cooperativity with receptor tyrosine kinases in liver tumorigenesis using transposon-mediated mutagenesis
PUBLICATION
January 15th, 2018
High-resolution TADs reveal DNA sequences underlying genome organization in flies.
PUBLICATION
July 7th, 2016
Structure of a Cytoplasmic 11-Subunit RNA Exosome Complex.
PUBLICATION
May 9th, 2016
Secretory cargo sorting by Ca2+-dependent Cab45 oligomerization at the trans-Golgi network.
PUBLICATION
December 18th, 2015
Human Holliday junction resolvase GEN1 uses a chromodomain for efficient DNA recognition and cleavage.
PUBLICATION
February 16th, 2015
The RNA-binding protein Arrest (Bruno) regulates alternative splicing to enable myofibril maturation in Drosophila flight muscle.
PUBLICATION
April 2nd, 2013