Alignement multiples

Ce TP porte sur l'étude de motifs biologiques que ce soit dans les séquences ADN ou protéiques. Le fil conducteur de ce TP est l'étude d'une famille de facteurs de transcription qui possèdent un motif de type "basic leucine zipper" (bZIP). Les protéines humaines appartenant à cette famille sont peu conservées.

I. Détermination d'un motif caractéristique d'une famille de protéines.

Il existe plusieurs représentations possibles pour un motif biologique (ex : pseudo-expression régulière, profile, HMM, alignement, ...). Nous allons essayer de construire un motif de type pseudo-expression régulière à partir des protéines étudiées lors du TP de révision. Pour faciliter la suite du TP, je vous donne les protéines :

Non alignées, au format FASTA.
Alignées avec Multalin, au format FASTA.
Alignées avec Multalin (résultats obtenus à l'aide de l'interface du PBIL).

Déterminer les positions approximatives de début et de fin de la région conservée entre les séquences de cette famille.

1. Lecture de l'alignement à l'aide de WebLogo

Pour identifier plus facilement la conservation des colonnes, il est possible d'utiliser la représentation WebLogo.

Collez l'alignement multiple donné précédemment au format FASTA.

Est-ce que des colonnes bien conservées sont visibles ?
Est-ce que l'on retrouve plus facilement l'expression régulière bZIP dans cette représentation ?
Est-ce qu'une amélioration de l'alignement peut être envisagée pour se rapprocher du motif bZIP ?
Gardez cette image ouverte.

2. Retour à l'alignement.

Lorsque l'on observe le WebLogo de la partie conservées de l'alignement, on remarque des colonnes qui pourraient corrigées. Par exemple, le début de l'expression régulière de bZIP indique un K ou un R suivit d'une à trois positions non conservées. Or, les colonnes 675 et 676 contiennent toutes les deux un grand nombre de K et de R. Il est possible que le décalage de certaines colonnes puisse permettre de regrouper les K et les R ensembles.

Utilisez le logiciel Mega installé sur l'ordinateur. Ce logiciel est destiné à la phylogénie (voir TP6). Nous allons nous servir de son module d'alignement pour éditer notre alignement multiple. Vous pouvez ouvrir le fichier de l'alignement multiple des séquences de la famille bZIP dans cet éditeur.

Essayer de modifier l'alignement multiple afin de mieux respecter l'expression régulière de bZIP (ne passez pas trop de temps sur cette tâche).
Est-ce une tâche facile et rapide à faire ?

3. Méthode d'extraction d'un motif.

Pratt recherche des motifs communs à un ensemble de séquences ADN ou protéiques non alignées, sous la forme de pseudo-expressions régulières. Lancez Pratt sur les séquences de la famille bZIP.

Est-ce que Pratt retrouve des motifs qui vous semblent pertinents par rapport à ce qu'il peut être vu à l'aide de WebLogo (l'alignement) ?
Est-ce que l'expression régulière de bZIP est au moins partiellement trouvée par Pratt ?

4. Vérification de la qualité d'un motif.

Pour vérifier si un motif est bien caractéristique d'une famille de séquences, il faut le tester contre une banque de séquences protéiques. Le plus simple est de choisir SwissProt, la banque de protéines annotées par des experts car la fonction des protéines est donnée systématiquement et est fiable. Les résultats attendus pour un bon motif sont :

Il retrouve toutes les séquences de la famille considérée (ou presque).
Il ne retrouve aucune séquence d'une autre famille (ou presque).

Nous allons tester le bon comportement des motifs trouvés par Pratt. Le site ScanProsite permet non seulement d'étudier une séquence protéique en cherchant les motifs de la banque Prosite qu'elle contient ; mais aussi de rechercher une expression régulière (même syntaxe que Pratt) sur toutes les protéines de SwissProt.

Testez le meilleur site déterminé par Pratt contre la banque SwissProt, limitée aux séquences qui proviennent de l'Homme (option "Taxonomic lineage (OC) / species (OS) filter:"). Précisez qu'il n'est autorisé aucun (0 au lieu de 1) X dans les positions conservées du "pattern". Enfin, dans la partie "General options", choisissez le mode "Plain text output" pour accélérer l'affichage des résultats.

Combien d'entrées sont trouvées ?
Est-ce plus ou moins que le nombre de protéines humaines ayant l'expression régulière bZIP ?
Est-ce que l'on retrouve uniquement des séquences ayant la fonction facteur de transcription à motif bZIP ?
Je ne vous demande pas si toutes les protéines humaines de la famille bZIP sont bien retrouvées, mais il faudrait le vérifier.

Par défaut, Pratt recherche des motifs conservés dans toutes les séquences données en entrée. Mais, les motifs les plus pertinents ne sont pas toujours bien conservés dans l'ensemble des séquences de départ. Si l'on diminue le "pourcentage minimum de séquences à apparier" à 80%, voici les résultats obtenus.

Est-ce les motifs trouvés semblent plus pertinents que ceux trouvés avec 100% des séquences à apparier ?
Relancer une recherche du meilleur motif trouvé par Pratt dans les séquences humaines de SwissProt (n'oubliez pas de prendre celui de la liste "Best Patterns (after refinement phase):"). Est-ce que la qualité du motif est meilleure ?
Est-ce que les nouveaux motifs trouvés par Pratt correspondent au moins en partie au motif Prosite ?

II. Etude d'un site de fixation de facteur de transcription.

Maintenant que nous avons étudié les protéines, nous allons étudier le site de fixation d'un facteur de transcription de la famille bZIP : AP1_human.

1. Recherche de sites validés expérimentalement.

Nous allons rechercher dans la banque EMBL, à l'aide du formulaire ETENDU de SRS, des sites de fixation de AP1 qui ont été déterminés expérimentalement. Pour cela, nous allons effectuer deux requêtes que nous allons ensuite combiner.

Dans un premier temps, recherchez toutes les sous-entrées humaines dont le champ FtKey a pour valeur protein_bind, le champ FtQualifier a pour valeur bound_moiety et le champ FtDescription a pour valeur AP-1, c'est-à-dire les sous-entrées qui correspondent aux séquences reconnues par le facteur AP-1.
Dans un deuxième temps, recherchez toutes les sous-entrées humaines dont le champ FtKey a pour valeur protein_bind, le champ FtQualifier a pour valeur evidence, et le champ FtDescription a pour valeur experimental, c'est-à-dire les sous-entrées qui correspondent aux séquences reconnues par une protéine et déterminées expérimentalement.
Pour finir, combinez ces deux requêtes à l'aide de l'opérateur approprié, dans la page d'historique (onglet "Results").

Combien de sites AP-1 sont annotés dans les séquences humaines ?
Combien proviennent de données expérimentales ?
Notez la position du site AP-1 dans l'entrée AF077374 car nous allons étudier cette entrée par la suite.

2. Détermination d'une expression régulière représentant le site.

Nous allons construire manuellement une expression régulière représentant ce site de fixation. Pour cela, lancez un alignement multiple (Clustalw) sur les séquences à l'aide de SRS. Faites le WebLogo à partir de l'alignement en demandant également d'agrandir l'image à 36 X 10 cm pour une meilleure lisibilité.

Est-ce que le motif est bien conservé sur toutes les postions ?
Quelle expression régulière peut-on définir à partir de cette représentation ?

3. Recherche de l'expression régulière déterminée.

Rechercher l'expression régulière déterminée à partir du WebLogo contre le l'entrée AF077374 qui contient un site de fixation AP-1 déterminé expérimentalement. Nous allons utiliser le logiciel Fuzznuc sous Babel.

Dans un premier temps créez vous un compte permanent sous Babel pour pouvoir mémoriser vos fichiers d'une session à l'autre. Lorsque votre session est créée, vous pouvez lancer Fuzznuc avec votre expression régulière du type Prosite et préciser qu'elle est recherchée contre l'entrée AF077374 de la banque "GenBank human sequences". Précisez également que la recherche doit être faite sur les deux brins ("Search complementary strand").

Combien de fois l'expression régulière est trouvée dans l'entrée ?
Est-ce que le site déterminé expérimentalement a été trouvé ?
Si ce n'est pas le cas, recherchez quelle en est la raison et modifiez l'expression régulière pour le trouver.
Combien de sites trouvez-vous à présent ?

4. Construction et recherche d'un profil.

La représentation d'un site est plus fiable si l'on passe par un profil plutôt qu'une expression régulière. Toujours sous Babel, construisez un profil du type Gribskov à partir de l'alignement à l'aide de Prophecy. Une fois le profil créé, vous pouvez le rechercher dans l'entrée AF077374 à l'aide de Profit.

Quelle est la taille du profil construit ?
Est-il plus long que l'expression régulière ? Pourquoi ?
Combien de fois le profil est trouvé dans la séquence de l'entrée ?
Est-ce que le profil est plus stringeant (strict) que l'expression régulière ?
Est-ce que tous les sites trouvés par le profil sont également trouvés par l'expression régulière ?
Est-ce que le site déterminé expérimentalement est trouvé par le profil ?
D'après-vous pourquoi ?
Que faudrait-il faire pour y remédier ?

TP BioInfo 5

01.03.07