Reconstruction Phylogénétique




La construction d'un arbre nécessite au préalable d'effectuer un alignement multiple des séquences dont on veut reconstruire l'histoire évolutive


On distingue deux grands groupes de méthodes de RP :


Les modèles cladistiques

La cladistique initiée par Hennig hiérarchise les caractères comparés. Ne sont en fait regroupés dans un même taxon que les êtres vivants qui partagent des caractères homologues : lorsqu'une ressemblance entre deux taxons peut être attribuée à une ascendance commune, on parle d'homologie. Les membres antérieures de tous les tétrapodes, qu'ils soient bras ou ailes, sont homologues.

Ainsi l'aile de la chauve-souris et de l'oiseau sont-ils homologues en tant que membres antérieurs, et non en tant qu'ailes. L'ancêtre commun de l'oiseau et de la chauve souris possédait en effet déjà quatre pattes mais ses membres antérieurs n'étaient pas des ailes. Cet ancêtre commun est en effet aussi celui des lézards , des crocodiliens. Le membre antérieur « aile » est apparu plus tard indépendamment dans les deux lignéeschiroptères et oiseaux...

Les homologies sont en fait vues comme des innovations évolutives partagées (synapomorphies) : si un même caractère homologue est partagé par deux taxons c'est que les deux taxons l'ont hérité de leur ancêtre commun. Ce caractère homologue est donc apparu dans la lignée menant à cet ancêtre commun. Tout être vivant possédant ce caractère homologue descend donc de cet ancêtre commun. Tout être vivant ne possédant pas ce caractère homologue ne descend pas de cet ancêtre commun et est donc éloigné génétiquement.

La cladistique repose donc sur l'identification (souvent difficile) de l'homologie des caractères. Elle est pertinente au niveau morphologique (et est donc le seul moyen de classer les espèces fossiles dont l'ADN est rarement conservé) comme au niveau moléculaire. Les résultats sont représentés dans un arbre phylogénétique ou cladogramme dans lequel chaque nœud représente un ancêtre commun et où les synapomorphies sont représentées sur les branches dont la longueur est arbitraire. Deux taxons sont d'autant plus apparentés qu'ils partagent un ancêtre commun proche dans l'arbre. Les taxons se retrouvent regroupés en fonction de leurs liens de parenté.



Dans le cas des biomolécules, a cause des substitutions multiples, la distance observée entre deux caractères sous-estime la distance réelle (ou distance évolutive). (Phénomène de réversion)

Plusieurs modèles de calcul de distances ont été développés pour corriger ce biais.

Le modèle de Jukes et Cantor (1969) est un modèle à un seul paramètre. Ce modèle assume que les quatre bases ont les mêmes fréquences et que les substitutions sont équiprobables.

devo = −3

4 ln(1 − 4

3 dobs)

(dobs correspond à la fréquence de substitutions observées)

1


Le modèle de Kimura (1982) est un modèle à un deux paramètres. Ce modèle considère également que les quatre bases ont les mêmes fréquences mais il tient compte de la proportion entre le nombre de transitions1 et transversions2.

devo = −1

2 ln(1 − 2P − Q)p1 − 2Q

(P et Q correspondent respectivement aux fréquences de transitions et transversions observées)


Remarque :

Les modèles précédents permettent de calculer des distances entre des séquences nucléiques, en tenant compte des propriétés physico-chimiques des nucléotides(en fonction des matrices de substitutions utilisées), mais en omettant complètement le code génétique (dégénérescence de la 3eme base d'un codon moins pénalisant que les 1eres et 2ndes).

Pour des séquences non codantes, c’est effectivement ce qu’il convient de faire.

Par contre, pour des séquences codantes, la survenue d’une mutation dépend des acides aminés correspondants. Pour des séquences protéiques, le calcul de distance se résume généralement au score d’alignement en utilisant une matrice de subsitution type BLOSUM ou PAM. Des modèles de calcul de distances peuvent aussi être utilisés (cf. option Distance Model de protdist).



Les méthodes phénétiques


La phénétique repose sur le postulat de base que le degré de ressemblance est corrélé au degré de parenté. Elle suppose donc de quantifier la ressemblance entre les êtres vivants à classer.

Cette méthode se révèle peu pertinente lorsqu'on l'applique aux caractères morphologiques en raison des analogies : certaines ressemblances entre êtres vivants ou taxons ne peuvent en effet être attribuées à une ascendance commune. On parle alors d'analogie. Le principe utilisé pour expliquer ce phénomène est la convergence évolutive : deux taxons différents vivant dans des niches écologiques semblables ou sur lesquels la sélection naturelle a eu un impact semblable pourront avoir des caractères analogues. Les ailes des oiseaux et des chauves-souris sont des caractères analogues en tant qu'ailes, car ces deux ailes ne sont pas hérités d'un ancêtre commun ailé. De plus il est très difficile de quantifier numériquement des ressemblances morphologiques.

En revanche, la phénétique devient pertinente dès lors que l'on compare un très grand nombre (au sens statistique) de caractères car le nombre de caractères analogues devient négligeable parmi tous les caractères dont la ressemblance est effectivement due à la parenté. Ainsi cette technique est très puissante lorsqu'on l'applique au niveau moléculaire. Les systématiciens ont donc de plus en plus recours à des méthodes moléculaires pour comparer les taxons et reconstruire les phylogénies. Chaque résidu de la molécule (nucléotide pour l'ADN et l'ARN ou acide aminé pour la protéine) peut être considéré comme un caractère. Il est donc possible de comparer les séquences chez plusieurs êtres vivants et de quantifier leur ressemblance par un simple pourcentage que l'on assimile à la distance génétique entre les deux taxons auxquels appartiennent les deux êtres vivants. Les résultats sont représentés dans un arbre phylogénétique, que l'on pourrait nommer phénogramme, où la longueur des branches dépend de la distance génétique et représente donc le degré de parenté entre les taxons étudiés.



La méthode UPGMA (Unweight Pair Group Method with Arithmetic mean) (1958) est un algorithme de clusterisation séquentiel qui consiste à regrouper les deux unités taxonomiques (OTU) les plus proches, puis recalculer les distances moyennes avec les autres groupes et ainsi de suite. Elle impose que les distances
soient ultramétriques (hypothèse d’horloge moléculaire).


La méthode NJ (Neighbor Joining) (1987) est la méthode de distances la plus utilisée. Elle considère que les distances sont proches de l’additivité (donc n’implique pas l’hypothèse d’horloge moléculaire). C’est aussi un algorithme de clusterisation séquentiel qui consiste à regrouper les deux OTU dont le regroupement va minimiser la longueur totale de l’arbre.

Utilisation conjointe de la phénétique et de la cladistique

Pendant longtemps des discussions parfois violentes ont opposé tenants de l'une ou de l'autre technique. Aujourd'hui la phénétique et la cladistique sont souvent utilisées conjointement comme étant deux méthodes indépendantes. Lorsque leurs résultats sont convergents, on obtient des phylogénies très solides.

L'utilisation conjointe de ces deux méthodes a révélé l'existence dans la Classification classique de nombreux groupes non fondés sur les liens de parenté et qui sont donc considérés comme non légitimes et ne doivent plus êtres utilisés en taxonomie. L'utilisation de la phénétique moléculaire et de la cladistique ainsi que la confrontation des arbres obtenus a été largement permise par les méthodes modernes que sont l'amplification par PCR et le séquençage, alliées à de puissants outils de calculs qui permettent d'automatiser ces méthodes.

Exemple de changements dans l'arbre phylogénétique dus à l'utilisation de ces techniques :

Exemple de l'utilisation du gène 16s pour les études de phylogènie des procaryotes.