Les banques de données
Définition
De plus en plus de séquences de génome, de transcriptome ou de protéome sont disponibles la signification de la plupart de ces séquences reste à comprendre.
La première difficulté a été d'organiser cette énorme masse d'information et de la rendre disponible à l'ensemble de la communauté des chercheurs. Cela a été rendu possible grâce à différentes bases de données, accessibles en lignes.
Il existe deux types de bases de données. Les bases de données généralistes et les bases de données spécialisées.
Banques généralistes
Collecte des données la plus exhaustive possible et offrant
un ensemble hétérogène d'informations.
Elles ont pour but d'éviter les redondances. De nombreuses
séquences sont en doublons. Il difficile de savoir s'il
s'agit
de réels polymorphismes, de gènes
dupliqués ou
tout simplement d'erreurs de séquencage. Le volume de
données généré ne peut pas
être
analysé et reséquencé, il faut avoir
confiance
mais garder son esprit critique. Le mùanque de
contrôle
pose également le problème de la
qualité des
séquences (voir exemple exercice recherche de
similarité)
Néanmoins ces bases de données sont très réactives, et l'email est un moyen rapide de mettre en lumière toute erreur.
Quelques banques de données, dont vous vous servirai durant les TP:
- Banques ADN
- Banques protéines
Pour éviter la redondance, depuis quelques années les informations sont croisées entre ces banques de données. Necessitant la mise en place de règles communes pour l'interopérabilité des banques de données (voir chapitre Formats)
Exercice:Quelle est la version actuelle de Genbank et la taille de cette banque?
Trouver les statistiques de la croissance de cette banque.
Quelle proportion le génome humain représente-t-il dans cette banque?
Banques spécialisées
Il en existe plusieurs millers, elles regroupent des
données
plus homogènes établies autour d'une
thématique ou
d’une méthode spécifique de production
des
données. Elle possèdent une grande valeur
ajoutée,
par la qualité et la quantités des
données
croisées disponibles.
Chacun est suceptible de créer sa banque
spécialisées
Transfac - Facteurs de transcription
KABATP - Séquences d'immunoglobines
PFAM - Famille de protéines
TAXONOMY - Taxonomie
...
La diffusion des bases de données
La plupart des bases de données sont mises à jour par la production de versions actualisées. Le rythme varie en fonction des bases de données considérées. Par exemple la Genbank est actualisée 6 fois par an.
Pendant longtemps, la principale distribution fut l'envoi postal de bandes magnétiques aux personnes ayant souscrit un abonnement très onéreux. Progressivement le CD-ROM a remplacé ce support de stockage et a permis une plus grande diffusion des données. Depuis le début des années 90, l'installation massive de l'internet à haut débit, à permis à de nombreux de laboratoires de rapatrier les bases de données via ces réseaux à partir de serveurs publics, ou bien de directement consulter les banque de données à partir de l'ordinateur. Cette démocratisation de l'accès à l'information a permis une explosion des projets de génomiques.