Formats

(parlons le même langage)



Il existe des centaines de formats.

Certains sont simples comportant seulement la séquence et son nom.

C'est la cas du format FASTA:


>Cytochrome [Homo sapiens]
MDPFVVLVLCLSCLLLLSIWRQSSGRGKLPPGPTPLPVIGNILQIDIKDVSKSLTNLSKIYGPVFTLYFG
LERMVVLHGYEVVKEALIDLGEEFSGRGHFPLAERANRGFGIVFSNGKRWKEIRRFSLMTLRNFGMGKRS
IEDRVQEEARCLVEELRKTKASPCDPTFILGCAPCNVICSIIFQKRFDYKDQQFLNLMEKLNENIRIVST
PWIQICNNFPTIIDYFPGTHNKLLKNLAFMESDILEKVKEHQESMDINNPRDFIDCFLIKMEKEKQNQQS
EFTIENLVITAADLLGAGTETTSTTLRYALLLLLKHPEVTAKVQEEIERVIGRNRSPCMQDRGHMPYTDA
VVHEVQRYIDLIPTSLPHAVTCDVKFRNYLIPKGTTILTSLTSVLHDNKEFPNPEMFDPRHFLDEGGNFK
KSNYFMPFSAGKRICVGEGLARMELFLFLTFILQNFNLKSLIDPKDLDTTPVVNGFASVPPFYQLCFIPV



D'autres sont plus compliqués et possèdent plus d'informations.

C'est le cas du format GenBank: voir fichier pdf

Exercice:

Rendez vous à la page sur une page d'un séquence au format Genbank sequence.txt
Après à avoir sauvegardé le fichier, vous constarez qu'il n'est pas facile de récupérer simplement la séquence pour des études ultérieures.
Pour cela utilisez un outil en ligne permettant de faire des conversions vers différents formats disponible sur la site de l'institut Pasteur: HMMR ou bien ReadSeq. Dans les options vous trouverez la possibilité de convertir le fichier en un format plus simplement manipulable. Récupérer la séquence et enregistrer sous séquence_FASTA.txt