MaimathgomathgonM   ds

Alignements

(comparons les informations)




La plupart des prédictions sont basées sur l'alignement d'une protéine inconnue avec d'autres protéines.

L'alignement optimal est calculé en essayant de faire coïncider les deux séquences,  par l'insertion de positions sans nucléotide (ou d'acides aminés pour les protéines). Sur la séquence ne possédant pas de ces nucléotides, à la position correspondante on ajoute des "gaps", représentés par le caractère tiret ou point  (- ou .)

Ex: alignement de protéines eucaryotes

http://bmc.ub.uni-potsdam.de/1471-2164-6-20/1471-2164-6-20-3.jpg


Les matrices

Chaque mutation n'est pas équivalente. En effet la sélection conservera les mutations qui ne sont pas très pénalisant. Par exemple le remplacement d'un acide aminé aromatique par un autre acide aminé aromatique (Leucine -> Isoleucine)

Les alignements multiples de protéines homologues ont permis de déterminer des tables de probabilités de mutation nommée Matrices, reflétant le coût de cette mutation. Il existe 3 types de matrices et chacune peut etre paramétrée en fonction de la distance entre les protéines à aligner:
  • PAM (par exemple PAM250)
  • BLOSUM (par exemple BLOSUM62)
  • GONNET
A chaque fois plusieurs alignements sont générés. La qualité de l'alignement de chaque alignement est évaluée par un nombre nommé Score. L'alignement avec le meilleur score est considéré comme l'alignement optimal. Il est dépendant de la matrice utilisé.

Le score est calculé en cumulant les coût de chacune des substitution, le nombre de gaps et leur longueur


Il existe deux types d'alignements, répondant à deux problématiques.

Les alignements globaux

Les alignements globaux (tel que Needleman et Wunsch) sont considèrent les séquences dans leur globalité. 

Si les longueurs des séquences sont différentes, alors des insertions devront être faites dans la séquence la plus petite pour arriver à aligner les deux séquences d'une extrémité à l'autre. 

Dans le cas où les longueurs sont très différentes, il est possible d'appliquer ce principe d'alignement global seulement en considérant chaque position d'une séquence longue comme étant un point de départ d'alignement avec une séquence courte.

Cependant dans un alignement global, si uniquement de courts segments sont très similaires entre deux séquences, les autres parties des séquences risquent de diminuer le poids de ces régions ---> Score faible

Ces alignements sont très gourmands en ressources. Les temps de calcul sont  proportionnels au nombre de séquences ---> très long

Exercice:

Calculer à la main l'alignement optimal entre les séquences ATTACTGGTATGC et TTAGCTTATGCT 

(support pdf)

Exercice2:

Rendez vous sur la banque de données de protéine Swissprot et récupérez les séquences possédant les numéros d'accession suivant: P04156 et P10279 (il y a un lien vers un fichier FASTA pour récupérer la séquence)

Quelles sont ces protéines, dans quel syndrome sont elles rencontrés?

De quels organismes proviennent-elles?

Effectuer un alignement de ces séquences grace à ALIGNp.

Ces protéines semblent-elles prochent? Risque de transmission?

Les alignements locaux

C'est pourquoi d'autres algorithmes d'alignements, dits locaux, basés sur la localisation des similarités sont nés.  Le plus populaire d'entre eux est nommé BLAST.

Le but de ces alignements locaux est de découper la séquence à analyser en "mots" plus petit pour gagner du temps

Principe de recherche de similarité dans les bases de données par BLAST 


voir fichier pdf

Résumé sur les alignements locaux

L'alignement de séquence est le principe de base pour l'analyse de séquence.

L'alignement entre deux séquences similaires permet d'observer leur degré d'apparentée et d'estimer si elles semblent ou non homologues: c'est à dire si elles descendent ou non d'une même séquence ancestrale commune ayant divergé au cours de l'évolution.

Identité :
Proportion des paires de résidus identiques entre deux séquences alignées.
(Exprimé généralement en %).
Similitude :
Mesure de la ressemblance entre deux séquences. Le degré de similitude est
quantifié par un score basé sur le % de similarité (% identité + %substitutions
conservatives) des séquences.
Homologie :
Deux séquences sont homologues si elles ont un ancêtre commun.
Il n'y a pas de degré d'homologie (oui ou non !).
On ne dit pas: tres homologue, faible homologie, etc….

Dans l'affirmative, l'alignement permet ainsi de discriminer entre les régions conservées au cours de l'évolution de celles ayant divergé (relation séquence-structure-fonction).

On sépare habituellement les homologies entre séquences en deux classes:

Orthologues: Paralogues:
  • séquences homologues ayant divergé par spéciation donc trouvées dans des espèces distinctes
  • souvent de fonctions identiques ou proches dans leurs organismes respectifs
  • séquences homologues ayant divergé par duplication puis mutations au sein d'une même espèce
  • souvent de fonctions distinctes, ou robustesse par redondance

Lorsque l'on compare des séquences d'acides nucléiques, on utilise essentiellement l'identité entre les bases pour guider l'alignement. Pour comparer plus profondement les protéines, on exploite les similitudes de proprietés physico-chimiques entre acides aminés différents: cette information est modlisée en bioinformatique dans les matrices de substitutions.

Un alignement devra mettre en évidence les:

  • identités entre les 2 séquences
  • substitutions conservatives (acides aminés interchangeables)
  • substitutions non-conservatives (acides aminés non interchangeables)
  • insertions ou délétions survenues dans l'une ou l'autre des séquences (les INDELS)

Quelle matrice utiliser?

Il existe donc différentes matrices de scores destinées à aider le biologiste dans ces analyses. L'efficacité de ces matrices dépend du type d'expériences et des résultats utilisés pour l'alignement, et bien que de nombreuses études comparatives aient été menées, il n'y a pas de matrice idéale mais il ressort de ces études que les matrices plutôt basées sur les comparaisons de séquences (Gonnet, BLOSSUM) ou sur les structures 3D donnent le plus souvent de meilleurs résultats que celles basées principalement sur le modèle de Dayhoff. 

Les matrices BLOSUM élevées et les matrices PAM faibles permettent de comparer des séquences relativement proches et courtes tandis que pour comparer des séquences plus divergentes et plus longues, il vaut mieux utiliser des BLOSUM plus faibles (ou des PAM plus élevées).

Moins divergentes
(proches)
< < < < < <        > > > > > >  Plus divergentes
(éloignées)
BLOSUM80
PAM1
BLOSUM62
PAM120
BLOSUM45
PAM250

Pour tous les logiciels qui utilisent l'alignement de séquences, la matrice BLOSUM62 est souvent un judicieux premier choix!