21
Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni Banche Dati Primarie di Biosequenze Ie banche dati primarie delle sequenze nucleotidiche EMBL, GenBank e DDBJ sono una collezione di sequenze di DNA e RNA che provengono dalla letteratura scientifica e dalle sequenze brevettate. Le sequenze sono direttamente sottomesse alla banca dati dagli autori. Descrizione La collezione e’ organizzata in divisioni e distribuita come “flat-file”.

Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Embed Size (px)

Citation preview

Page 1: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

Ie banche dati primarie delle sequenze nucleotidiche EMBL, GenBank eDDBJ sono una collezione di sequenze di DNA e RNA che provengonodalla letteratura scientifica e dalle sequenze brevettate. Le sequenze sonodirettamente sottomesse alla banca dati dagli autori.

Descrizione

La collezione e’ organizzata in divisioni e distribuita come “flat-file”.

Page 2: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Le entries sono raggruppate in divisioni. Le suddivisioni sono determinate su basetassonomica. Alcune divisioni, come le EST rappresentano un’eccezione in quantoraggruppa le ‘Expressed sequences tags’ oppure le ‘transcribed sequences fragments’.

Divisioni

Banche Dati Primarie di Biosequenze

Le sequenze EST, sono a loro volta suddivise in divisioni tassonomiche:

Fungi ESTsHuman ESTsInvertebrate ESTsOther Mammal ESTsMouse ESTsPlant ESTsProkaryote ESTsOther Rodent ESTsVertebrate ESTs

Page 3: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Division Entries Nucleotides

Constructed 108 275,651,039ESTs 12,579,887 6,092,593,479Fungi 66,478 104,701,680GSSs 3,655,432 2,024,373,612HTC 37,702 46,534,142HTG 59,643 8,133,591,288Human 224,748 3,514,807,268Invertebrates 99,095 562,543,766Other Mammals 41,221 63,140,744Mus musculus 59,818 537,735,008Organelles 158,722 130,281,571Patents 702,020 373,836,041Bacteriophage 2,172 6,839,416Plants 127,036 442,154,945Prokaryotes 154,502 469,654,436Rodents 23,458 35,679,406STSs 124,500 49,120,860Synthetic 6,755 13,005,812Unclassified 1,358 2,016,758Viruses 161,446 143,788,744Other Vertebrates 38,145 68,136,131

Total 18,324,246 23,090,186,146

Banche Dati Primarie di BiosequenzeBanche Dati Primarie di BiosequenzeLista delle divisioni relative al Release 72 dell’EMBL

Page 4: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

• Le sequenze nucleotidiche presenti nella banca dati sono memorizzate cosi’come sottomesse dagli autori. Le sequenze sono sempre rappresentate nelladirezione che va da 5’ a 3’.

• Le basi sono numerate in modo sequenziale a partire dalla prima posizione.

• Le sequenze cDNA sono memorizzate nella banca dati come sequenze diRNA. Per i dati genomici viene memorizzata la ‘strand’ codificante.

• I dati memorizzati corrispondono generalmente al ‘wildtype’ prima dellemutazioni o manipolazione genetica

• Le sequenze delle molecole di tRNA sono memorizzate come trascritto primadelle modificazioni delle basi, le basi modificate sono riportate nelle featuretable.

ConvenzioneDati di Sequenza

Page 5: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

La classificazione tassonomica utilizzata è comunemente condivisadalle tre organizzazioni EMBL/GenBank e DDBJ ed e’organizzata sulla base delle conoscenze filogenetiche. Questeinformazioni derivano in gran parte da studi di evoluzionemolecolare.

Lo scopo di questa informazione e’ quella di fornire un utile aiutoal ricercatore, anche se a volte l’informazione contenuta in questelinee, non è corretta.

L’informazione in queste linee è soggetta a rapidi cambi.

Classificazione e Identificazione degli Organismi

Page 6: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’.

Ciascuna entry e’ costituita, a sua volta, da un’unica sequenza contiguacosi’ come riportata in letteratura.

In molti casi le entry sono assemblate come regioni di overlapping chederivano da vai lavori.

Struttura della Banca Dati - EMBL

Page 7: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

Al fine di rendere disponibili, quanto prima, i dati all’utenza subito dopo lapubblicazione, le entry sono rilasciate prima di una loro completa revisione. Per fornireall’utenza il grado di correttezza e il successivo lavoro da effettuare sull’entry, questesono classificate in classi. Le classi sono:

Standard: Entry che rispondono perfettamente allo standard del formato

Unreviewed: Entry che rispondono allo standard del formato, pero’ sono state rivisteautomaticamente e non da un esperto ;

Preliminary: Solo la sequenza e le citazioni sono state sottoposte al controllo;

Unannotated: Entry che contengono solamente un ‘entry name’, citazioni e sequenza

Backbone: Entry che derivano dall’NCBI e trasformate nel formato EMBL

Struttura della Banca Dati Classificazione delle sequenze

Page 8: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

Struttura della Banca DatiStruttura della Banca Dati Divisioni della Banca DatiDivisioni della Banca Dati

Page 9: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

La struttura delle entries, nel database, sono organizzate al finedi essere facilmente comprensibili dal ricercatore e gestibile congli strumenti informatici. Il simbolismo utilizzato per la lorodescrizione e classificazione è quello familiare al biologomolecolare.

Ciascuna entry nel database e’ costituita da linee, dove ogni lineaha una sua definizione e formato.

Struttura della Banca Dati -EMBLStruttura dell’entry

Page 10: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

ID TRBG361 standard; RNA; PLN; 1859 BP.XXAC X56734; S46826;XXSV X56734.1XXNI g21954XXDT 12-SEP-1991 (Rel. 29, Created)DT 13-SEP-1993 (Rel. 37, Last updated, Version 8)XXDE Trifolium repens mRNA for non-cyanogenic beta-glucosidaseXXKW beta-glucosidase.XXOS Trifolium repens (white clover)OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;OC euphyllophytes; Spermatophyta; Magnoliophyta; eudicotyledons; Rosidae;OC Fabales; Fabaceae; Papilionoideae; Trifolium.XXRN [5]RP 1-1859RA Oxtoby E., Dunn M.A., Pancoro A., Hughes M.A.;RT "Nucleotide and derived amino acid sequence of the cyanogenicRT beta-glucosidase (linamarase) from white clover (Trifolium repens L.).";RL Plant Mol. Biol. 17:209-219(1991).XXRN [6]RP 1-1859RA Hughes M.A.;RT ;RL Submitted (19-NOV-1990) to the EMBL/GenBank/DDBJ databases.RL M.A. Hughes, UNIVERSITY OF NEWCASTLE UPON TYNE, MEDICAL SCHOOL, NEWRL CASTLE UPON TYNE, NE2 4HH, UKXXDR MENDEL; 11000; TRIrp;1162;1.DR SWISS-PROT; P26204; BGLS_TRIRP.XX

Formato Entry

Page 11: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

FH Key Location/QualifiersFHFT source 1..1859FT /organism="Trifolium repens"FT /db_xref="taxon:3899"FT /tissue_type="leaves"FT /clone_lib="lambda gt10"FT /clone="TRE361"FT CDS 14..1495FT /db_xref="PID:g21955"FT /db_xref="MENDEL:11000"FT /db_xref="SWISS-PROT:P26204"FT /note="non-cyanogenic"FT /EC_number="3.2.1.21"FT /product="beta-glucosidase"FT /protein_id="CAA40058.1"FT /translation="MDFIVAIFALFVISSFTITSTNAVEASTLLDIGNLSRSSFPRGFIFT FGAGSSAYQFEGAVNEGGRGPSIWDTFTHKYPEKIRDGSNADITVDQYHRYKEDVGIMKFT DQNMDSYRFSISWPRILPKGKLSGGINHEGIKYYNNLINELLANGIQPFVTLFHWDLPQFT VLEDEYGGFLNSGVINDFRDYTDLCFKEFGDRVRYWSTLNEPWVFSNSGYALGTNAPGRFT CSASNVAKPGDSGTGPYIVTHNQILAHAEAVHVYKTKYQAYQKGKIGITLVSNWLMPLDFT DNSIPDIKAAERSLDFQFGLFMEQLTTGDYSKSMRRIVKNRLPKFSKFESSLVNGSFDFFT IGINYYSSSYISNAPSHGNAKPSYSTNPMTNISFEKHGIPLGPRAASIWIYVYPYMFIQFT EDFEIFCYILKINITILQFSITENGMNEFNDATLPVEEALLNTYRIDYYYRHLYYIRSAFT IRAGSNVKGFYAWSFLDCNEWFAGFTVRFGLNFVD"FT mRNA 1..1859FT /evidence=EXPERIMENTALXXSQ Sequence 1859 BP; 609 A; 314 C; 355 G; 581 T; 0 other;

aaacaaacca aatatggatt ttattgtagc catatttgct ctgtttgtta ttagctcatt …..

Formato Entry -2

Page 12: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

Alcune entry possono non contenere tutti i tipi di linee, come alcunelinee possono essere ripetute più volte. Tutte le entry iniziano semprecon il codice ID.

Definizione Codici delle Linee

Link

Page 13: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

L’identificatore ID e’ sempre la prima linea di un entry. La sua struttura e’:

ID entryname dataclass; molecule; division; sequencelength BP.

ID HS7SLP standard; RNA; PRI; 377 BP.

Nome dell’entry: costituita da più di nove caratteri alfanumerici einiziano sempre con una lettera.

Prime due lettere - Genere e SpecieAltri caratteri: Associati alla funzionees. MMIG01,MMIG02 (Mus Musculus Immunoglobulin genes

Nome dell’entry: costituita da più di nove caratteri alfanumerici einiziano sempre con una lettera.

Prime due lettere - Genere e SpecieAltri caratteri: Associati alla funzionees. MMIG01,MMIG02 (Mus Musculus Immunoglobulin genes

XXX per unannotated entry. Se lamolecola e’ circolare sara’ indicata come‘circular DNA’

XXX per unannotated entry. Se lamolecola e’ circolare sara’ indicata come‘circular DNA’

Struttura delle LineeLinea ID

Page 14: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

La linea AC (ACcession Number), individua l’accession number della sequenza.

AC Y00321; J05348;

Lo scopo dell’accession number e’ quello di definire un modo stabile di identificare le entries daun release all’altro release. Mentre il nome dell’entry può cambiare da un release all’altro,l’accession number rimane invariato.

I ricercatori che utilizzano le sequenze per i lori scopi e devono citare nel lavoro le sequenzeutilizzate devono sempre citare il primo AC.

La presenza di più AC è utilizzato per seguire le tracce delle variazioni delle entries:

Ad esempio. : unione di due sequenze

viene creato un nuovo AC primario e gli AC secondari sono quelli elencati dopo;

Struttura delle LineeLinea AC

Page 15: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

La linea DT (DaTe) indica quando un entry appare per la prima volta nella bancadati e quando e’ stata l’ultima variazione.

DT 07-NOV-1985 (Rel. 07, Created)DT 20-FEB-1990 (Rel. 23, Last updated, Version 1)

Il valore assoluto relativo alla ‘Version’ viene incrementato ogni qualvolta lasequenza ha subito una variazione. Permette di seguire il numero dellevariazioni che la sequenza ha subito nel tempo.

Struttura delle LineeLinea DT

Page 16: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

Linea DE (DEscription) contiene una descrizione generale circa la sequenza.Questa può contenere il tipo di gene per la quale la sequenza codifica, laregione del genoma dalla quale deriva o altre informazioni utili a identificarela sequenza.

DE Human mRNA for 7SL RNA pseudogene

Struttura delle LineeLinea DE

Page 17: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

La linea KW (KeyWord) fornisce informazioni sulla funzionalità dellasequenza. Spesso sono necessarie più linee per una singola entry.

KW small nuclear RNA; pseudogene.

Le keyword sono ordinate in ordine alfabetico. Se un’entry non contienenessun riferimento ad una keyword abbiamo una struttura:

KW .

Struttura delle LineeLinea KW

Page 18: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

Struttura delle LineeLinea RN,RC,RP,RX,RA,RT,RL

Tutte queste linee individuano i riferimenti bibliografici:

RN [1]RP 1-377RX MEDLINE; 85126939. RA Ullu E., Weiner A.M.;RT "Human genes and pseudogenes for the 7SL RNA component of signalRT recognition particle";RL EMBO J. 3:3303-3310(1984).

Page 19: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

Struttura delle LineeLinea DR

La linea DR (Database Cross-reference) riporta il link ad altri database i qualicontengono informazioni in relazione con l’entry. La struttura della linea:

DR database_identifier; primary_identifier; secondary_identifier.

DR SWISS-PROT; P03593; V90K_AMV.

Page 20: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

Struttura delle LineeLinea FT

La linea FT (Feature Table) fornisce un meccanismo per le annotazioni dei datidelle sequenze. In queste tabelle sono riportate tutte le regioni o i siti di interessebiologico.

La strutturazione delle feature table è stata definita univocamente tra i tre gestoridelle banche dati. EMBL/Genbank/DDBJ

Page 21: Banche Dati Primarie di Biosequenze - siga.unina.it · Banche Dati Primarie di Biosequenze La banca dati delle sequenze nucleotidiche e’ costituita da ‘entries’. Ciascuna entry

Cortona - Novembre 2002 Corso di Bioinformatica - S.Liuni

Banche Dati Primarie di Biosequenze

Struttura delle LineeLinea SQ

La linea SQ (SeQuence header) fornisce i dati relativi alla lunghezza dellasequenza e alla sua composizione.

SQ Sequence 462 BP; 110 A; 147 C; 135 G; 0 T; 70 other;