Alix Boc

Université de Montréal
Candidat Postdoctoral fellow

superviseur(e): Pierre Legendre
Début: 2011-09-01
Fin: 2014-08-31
Page personnelle

Projet

Méthodes et logiciel d'analyse de l'évolution réticulée
L’identification des relations de filiation entre les organismes vivants à partir de données moléculaires est un sujet de grande actualité en biologie. Cette quête de « l’Arbre de la Vie » soulève plusieurs questions méthodologiques relevant autant de la biologie que de l’informatique. Depuis les travaux de Darwin (1859), on sait que l’arbre (la phylogénie) est une représentation formelle du processus dynamique de la diversification des espèces : les feuilles y représentent les espèces étudiées, les nœuds internes sont les ancêtres virtuels, alors que les branches identifient les liens de filiation. Toutefois, selon plusieurs auteurs (Doolittle 1999, Legendre 2000a, Koonin 2003), les biologistes moléculaires n’ont pas réussi à élucider le vrai « Arbre de la Vie », non parce que leurs méthodes sont inadéquates ou parce qu’ils ont choisi de mauvais gènes, mais parce que les relations de parenté entre les espèces ne peuvent être complètement représentées à l’aide d’un modèle arborescent. L’évolution réticulée reflète la part de l’évolution des espèces qui ne peut pas être représentée correctement par le modèle classique de l’arbre phylogénétique. À ce jour, des relations phylogénétiques réticulées ont été identifiées dans plusieurs domaines, dont l’hybridation. En effet, les réticulations apparaissent comme résultat de l’hybridation chez les plantes. L’hybridation par allopolyploïdie, en particulier, peut mener à l’apparition instantanée d’une nouvelle espèce possédant le complément chromosomique des deux espèces parentes. Je propose de développer trois nouveaux algorithmes pour l’analyse et la validation des réseaux d’hybridation. En hybridation, deux lignées se recombinent pour créer une nouvelle entité évolutive qui peut avoir le même nombre de chromosomes que ses parents (diploïdie) ou la somme des nombres de chromosomes de ses parents (allopolyploïdie). L’hybridation est un phénomène courant chez les plantes, mais aussi chez certains groupes de poissons (par exemple, Cyprinidae). Selon une estimation (Stace 1984), il existe présentement environ 70,000 espèces d’hybrides naturels connus dans le monde. L’hybridation est reconnue comme étant une force évolutive importante de par sa capacité à recombiner la diversité génétique entre les espèces. L’évolution des gènes hérités de chaque parent peut être représentée par des arbres phylogénétiques distincts qui sont par la suite combinés à l’intérieur d’un modèle en réseau (Makarenkov et al. 2006). La reconstruction et l’analyse des phylogénies d’hybrides ont conduit au développement de plusieurs modèles de réseaux réticulés (e.g. SplitsGraph, NeighborNet, Réticulogramme, Pyramide, etc). Nous proposons tout d’abord de décrire et de valider par simulations un algorithme permettant d’estimer le nombre minimum d’événements d’hybridations nécessaires pour expliquer les contradictions topologiques qui existent entre des arbres de gènes (Gusfield et al. 2004, Baroni et al. 2006). Puis, nous développerons un algorithme pour déterminer si un réseau d’hybridation peut être expliqué uniquement par les événements contemporains (Baroni et al. 2006). Finalement, nous concevrons un algorithme pour la validation des réseaux basés sur différents modèles. Cette validation utilisera une estimation statistique des réseaux réticulés en fonction des critères AIC (Akaike Information Criterion, Akaike 1987) et MDL (Minimum Description Length, Rissanen 1978). Ces critères, qui emploient une fonction de maximum de vraisemblance et le nombre de degrés de liberté du modèle, seront différents pour chacun des modèles considérés. Le dernier algorithme sera utilisé pour estimer la vraisemblance d’un réseau réticulé et permettra de trancher dans chacune des situations pratiques entre un modèle arborescent, qui est un cas particulier et simple de réseau, et un modèle en réseau. Un logiciel incluant les algorithmes proposés sera développé et mis à la disposition de la communauté scientifique. Références: Akaike, H. (1987) Factor analysis and AIC. Psychometrika, Springer, vol. 52(3), pp. 317-332. Baroni, M., Semple, C. et Steel, M (2006) Hybrids in Real Time. Systematic Biology. vol. 55(1), pp. 46-56. Darwin, C.R. (1859) On the origin of species. Doolittle, W.F. (1999) Phylogenetic Classification and the Universal Tree. Science vol. 284, pp. 2124-2129. Gusfield, D., Eddhu, S. et Langley, C. (2004) Optimal, Efficient Reconstruction of Phylogenetic Networks with Constrained Recombination. Journal of Bioinformatics and Computational Biology, vol. 2(1), pp. 173-213. Koonin, E.V. (2003), Horizontal gene transfer: the path to maturity. Molecular Microbiology, vol. 50, pp. 725–727. Legendre, P. 2000. Biological applications of reticulation analysis, Journal of Classification, vol. 17, pp. 153-157. Makarenkov, V., Kevorkov, D. and Legendre, P. (2006) Phylogenetic Network Reconstruction Approaches, Applied Mycology and Biotechnology, International Elsevier Series vol. 6. Bioinformatics, pp. 61-97. Rissanen, J. (1978) Modeling by shortest data description. Automatica, vol. 14, pp.465-471.