Les banques de données

(à l'usage des biologistes moléculaire)

Définition

De plus en plus de séquences de génome, de transcriptome ou de protéome sont disponibles la signification de la plupart de ces séquences reste à comprendre. 

La première difficulté a été d'organiser cette énorme masse d'information et de la rendre disponible à l'ensemble de la communauté des chercheurs. Cela a été rendu possible grâce à différentes bases de données, accessibles en lignes.

Il existe deux types de bases de données. Les bases de données généralistes et les bases de données spécialisées.


Banques généralistes


Collecte des données la plus exhaustive possible et offrant un ensemble hétérogène d'informations.

Elles ont pour but d'éviter les redondances. De nombreuses séquences sont en doublons. Il difficile de savoir s'il s'agit de réels polymorphismes, de gènes dupliqués ou tout simplement d'erreurs de séquencage. Le volume de données généré ne peut pas être analysé et reséquencé, il faut avoir confiance mais garder son esprit critique. Le mùanque de contrôle pose également le problème de la qualité des séquences (voir exemple exercice recherche de similarité)

Néanmoins ces bases de données sont très réactives, et l'email est un moyen rapide de mettre en lumière toute erreur.

Quelques banques de données, dont vous vous servirai durant les TP:

Genbank - USA
EMBL - Europe
DDBJ - Japon

PIR - USA
SwissProt
- Suisse

Pour éviter la redondance, depuis quelques années les informations sont croisées entre ces banques de données. Necessitant la mise en place de règles communes pour l'interopérabilité des banques de données (voir chapitre Formats)

Exercice: 
Quelle est la version actuelle de Genbank et la taille de cette banque? 
Trouver les statistiques de la croissance de cette banque. 
Quelle proportion le génome humain représente-t-il dans cette banque?

Banques spécialisées

Il en existe plusieurs millers, elles regroupent des données plus homogènes établies autour d'une thématique ou d’une méthode spécifique de production des données. Elle possèdent une grande valeur ajoutée, par la qualité et  la quantités des données croisées disponibles.

Chacun est suceptible de créer sa banque spécialisées

SGD - Génome des Saccharomyces
MGI - Génome de la souris
Transfac - Facteurs de transcription
KABATP - Séquences d'immunoglobines
PFAM - Famille de protéines
TAXONOMY - Taxonomie 
...


La diffusion des bases de données 

La plupart des bases de données sont mises à jour par la production de versions actualisées. Le rythme varie en fonction des  bases de données considérées. Par exemple la Genbank est actualisée 6 fois par an.

Pendant longtemps, la principale distribution fut l'envoi postal de bandes magnétiques aux personnes ayant souscrit un abonnement très onéreux. Progressivement le CD-ROM a remplacé ce support de stockage et a permis une plus grande diffusion des données. Depuis le début des années 90, l'installation massive de l'internet à haut débit, à permis à de nombreux de laboratoires de rapatrier les bases de données via ces réseaux à partir de serveurs publics, ou bien de directement consulter les banque de données à partir de l'ordinateur. Cette démocratisation de l'accès à l'information a permis une explosion des projets de génomiques.