13
1 Viviana Patti Informatica di base - 24/26 novembre Informatica e biotecnologie I parte Banche dati biologiche e analisi di sequenze CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC ||||||||||||||||||||||||||||| CGAAATCGCATCAGCATACGATCGCATGC Viviana Patti Informatica di base - 24/26 novembre Informatica e biotecnologie Strumenti per raccogliere e organizzare le informazioni sui dati biologici ricerca delle informazioni visualizzazione analisi ... Viviana Patti Informatica di base - 24/26 novembre Banche dati biologiche: sommario Focus su banche dati di dati biologici rappresentati come sequenze (sequenze di proteine/sequenze; sequenze di acidi nucleici) Banche dati di strutture di proteine (solo cenni) Analisi di 3 fasi di interazione con una banca dati Recupero dell'informazione in una banca dati sistemi di interrogazioni via Web -> Entrez interrogazioni semplici per parola chiave strumenti per interrogazioni più raffinate Scelta del formato dei dati estratti da una banca dati Scaricare un dato biologico estratto nel formato scelto in locale -> Entrez In Lab vediamo come realizzare queste fasi usando Entrez

Informatica e biotecnologie - di.unito.itpatti/teaching/BancheDatiBio3pp.pdf · Sequenze di caratteri (nucleotidi del DNA, amminoacidi delle proteine) ... complessità chimica degli

Embed Size (px)

Citation preview

1

Viviana Patti Informatica di base - 24/26 novembre

Informatica e biotecnologieI parte

Banche dati biologichee analisi di sequenze

CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC|||||||||||||||||||||||||||||CGAAATCGCATCAGCATACGATCGCATGC

Viviana Patti Informatica di base - 24/26 novembre

Informatica e biotecnologie

Strumenti per

raccogliere e organizzare le informazioni sui dati biologiciricerca delle informazionivisualizzazioneanalisi

...

Viviana Patti Informatica di base - 24/26 novembre

Banche dati biologiche: sommario

Focus su banche dati di dati biologici rappresentati come sequenze (sequenze di proteine/sequenze; sequenze di acidi nucleici)Banche dati di strutture di proteine (solo cenni)

Analisi di 3 fasi di interazione con una banca datiRecupero dell'informazione in una banca dati

sistemi di interrogazioni via Web -> Entrezinterrogazioni semplici per parola chiavestrumenti per interrogazioni più raffinate

Scelta del formato dei dati estratti da una banca datiScaricare un dato biologico estratto nel formato scelto in locale -> EntrezIn Lab vediamo come realizzare queste fasi usando Entrez

2

Viviana Patti Informatica di base - 24/26 novembre

Banche dati biologiche

Banca dati biologica: raccoglie informazioni e dati su dati biologici. L’informazione proviene da

Letteratura specializzata sull’argomentoAnalisi effettuate in laboratorio (in vitro e in vivo)Analisi bioinformatiche (in silico)

Viviana Patti Informatica di base - 24/26 novembre

Istituzioni: NCBI e EBINational Center for Biotechnology Information: centro di raccolta di risorse di vario tipo

http://www.ncbi.nlm.nih.gov/accesso alla National Library of Medicine e al

National Institutes of Healthaccesso a vari database attraverso Entrez

PubMed (data base della letteratura biomedica)GenBankSwissprot…

accesso a software per riconoscimento e allineamento di sequenze

European Bioinformatics Institute: stessa funzionehttp://www.ebi.ac.uk/

Viviana Patti Informatica di base - 24/26 novembre

NCBI - Entrez

ENTREZ: sistema di interrogazione di banche dati biologiche disponibile via web. Mette a disposizione un ambiente integrato per la ricerca e l'estrazione da diverse banche dati (GeneBank, Swissprot) di sequenzenucleotidiche o proteiche.La presenza di un ambiente integrato permette di fare ricerche usando la stessa sintassi su diverse banche dati

http://www.ncbi.nlm.nih.gov/Entrez/

3

Viviana Patti Informatica di base - 24/26 novembre

Banche dati biologiche

Quali dati? Sequenze di caratteri (nucleotidi del DNA, amminoacidi delle proteine) Rappresentazione dei dati biologici come sequenze: l’uso di sequenze è la forma di gran lunga più diffusa per rappresentare dati biologici di varia natura:Ad esempio:

DNA genomicoProteinecDNAmRNA

si trovano sotto forma di sequenze delle banche dati biologiche consultabili da Enterz di NCBI come GenBank o SWISSPROT

Viviana Patti Informatica di base - 24/26 novembre

SequenzeHanno un formato puramente testuale: sono stringhe di lettere di un certo alfabetoEsempi di sequenze biologiche:

Sequenze DNA -> formate da 4 tipi di lettere:A (adenina), C (citosina), G (guanina), T (timina)

esempio: ATGCCGTAA, TAG, TTT, …Sequenze RNA -> formate da 4 tipi di lettere:

A (adenina), C (citosina), G (guanina),U (uracile)esempio: AUCGCUAA, AUUCG, …

Sequenze proteiche: formate da 20 lettere corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y

esempio: MPIVDTGSVAPLSAAEK…

Viviana Patti Informatica di base - 24/26 novembre

Sequenze DNA

La rappresentazione di una molecola di DNA come sequenza di simboli {A,T,C,G} è ovviamente un'astrazione di una struttura chimica 3DTuttavia se lo scopo è quello di usare le tecniche per l’analisi di sequenze, possiamo temporaneamente ignorare tale strutturaAnalogo vale per molecole di RNA

4

Viviana Patti Informatica di base - 24/26 novembre

Sequenze di proteine

La rappresentazione di proteine come sequenze di simboli {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y} è anche detta struttura primariaOsservazione: a causa della maggiore complessità chimica degli amminoacidi rispetto agli acidi nucleici è più difficile tenere separato il contenuto informativo delle sequenze dalle proprietà degli amminoacidi componenti

Viviana Patti Informatica di base - 24/26 novembre

Es. GenBank

http://www.ncbi.nlm.nih.govBanca del genoma dell’ NIH accessibile da NCBI78000 sequenze di DNA in GenBank nel 1992, ora le dimensioni raddoppiano ogni 6-8 mesi

Formato ANS.1 standard per dati di sequenze per DB relazionali (Abstract Syntax NotationOne)Humane Genome ProjectGenomi completi o parziali di 900 specie

Viviana Patti Informatica di base - 24/26 novembre

GenBank

5

Viviana Patti Informatica di base - 24/26 novembre

Entry

Ogni banca dati è caratterizzata da un elemento biologico centrale (entry):

es: banche dati di sequenze di acidi nucleicielemento centrale: sequenza nucleotidica di DNA o

RNAfatta la query (interrogata la banca dati), e estratto un

certo elemento vengono associate le annotazioni che classificano quell’elemento: nome della specie, funzione, referenze bibliografiche -> attributi dell’elemento centraleAttraverso la query viene estratto un sottoinsieme di record -> elementi descritti mediante una serie di attributi

Viviana Patti Informatica di base - 24/26 novembre

Banche dati distribuite

Problema dell’accesso a banche dati distribuite su diversi siti e con strutture eterogenee

Cross referencing Rilascio della banca dati in formato XML:

oltre ai dati viene fornita sia la struttura logica che la struttura fisica della banca dati

Viviana Patti Informatica di base - 24/26 novembre

Ricerca dei dati e interrogazioniModalità di ricerca dei dati attraverso “motori di ricerca" su banche dati biologiche”

Interrogazione/query: campo “text search” o formper l’immissione del dato cercato (query semplice per parola chiave = keyword) o del codice che identifica la sequenza se lo si conosce

Problema della ricerca per semplice parola chiave: molto spesso si ottengono troppe risposte (sovraccarico informativo): molte più sequenze di quelle di interesse contengono in qualche linea la parola chiave cercataPer diminuire il numero di risposte si deve specializzare ulteriormente la domanda -> strumenti per raffinare la ricerca

6

Viviana Patti Informatica di base - 24/26 novembre

Ricerca dei dati e interrogazioni

Per diminuire il numero di risposte si deve specializzare ulteriormente la domanda -> strumenti per raffinare la ricerca

Specifica di criteri di ricerca avanzati mediante operatori booleani: AND, OR, BUT NOT(specializzazione della query)Entrez: funzione LimitsEntrez: funzione History: combino più query già fatte

Viviana Patti Informatica di base - 24/26 novembre

Operatori booleani: AND

Restringe il campo di ricerca, inserendo ad esempio la stringa:

equus caballus AND hemoglobin alpha

La banca dati ci mostrerà una lista di sequenze proteiche i cui campi di descrizione contengono entrambe le parole -> per. es. le sequenze proteiche del cavallo che non contengono nella descrizione la parola hemoglobin non vengono selezionate

Viviana Patti Informatica di base - 24/26 novembre

Operatori booleani: OR

Estende il campo di ricerca, digitando ad esempio:

homo sapiens OR mus musculus

Otterremo una lista di sequenze i cui campi contengono la parola homo sapiens o la parola mus musculus. L'immagine sotto evidenzia come l'operatore abbia allargato l'insieme delle sequenze che incontrano le nostre esigenze.

7

Viviana Patti Informatica di base - 24/26 novembre

Operatori booleani: BUT NOT

Restringe il campo di ricerca, inserendo:

homo sapiens BUT NOT hemoglobin

Richiederemo sequenze i cui campi contengono la parola homo sapiens ma non la parola hemoglobin.

Viviana Patti Informatica di base - 24/26 novembre

Naturalmente gli operatori booleani consentono di effettuare ricerche con più di due parole chiave, creando così interrogazioni che possono diventare molto complesse.

Operatori booleani: combinazioni

Viviana Patti Informatica di base - 24/26 novembre

Ricerca per parola chiave

Esempio di query in GenBankDalla ricerca in categoria Nucleotide (sequenze di acidi nucleici) -> ottengo una lista di record parola chiave Arabidopsis thaliana

Seleziono una entry

formato di visualizzazione

salva il risultato

8

Viviana Patti Informatica di base - 24/26 novembre

Entrez: Limits Per ottimizzare la ricerca Entrez prevede l'uso della funzione Limits: consente di limitare la ricerca a solo alcuni criteri (campi del database) o sottoinsiemi di dati

es. scegli campo organism

Viviana Patti Informatica di base - 24/26 novembre

Entrez: Limits Esempio: è stata limitata la ricerca a sequenze del DB contenenti la parola mouse nel campo organism

Viviana Patti Informatica di base - 24/26 novembre

Entrez: History Per rendere più efficiente la ricerca e procedere per raffinamenti successivi Entrez prevede l'opzione History: combino più query già fatte

1 query -> etichetta #12 query -> etichetta #23 query: combino in AND #1 e #2

9

Viviana Patti Informatica di base - 24/26 novembre

Formato dei datiOltre alla visualizzazione di default il dato può essere reso disponibile in diversi formati standard o specifici per l'uso di determinati tipi di softwareIn generale esistono diversi formati

sia per visualizzare i dati risultato di ricerca,sia per l'inserimento dati quando si vuole intraprendere una ricerca o un'analisi

Formato dei dati e software di analisi: certi software di analisi per dati biologici chiederanno in input la (le) sequenze memorizzate su file dove l'informazione è codificata in un determinato formato -> sono in grado di decodificare l'informazione biologica e di elaborarla SOLO quando è presentata in quel formatoQuali formati abbiamo a disposizione quando andiamo a prenderci un dato biologico in una banca dati, su cui magari poi vogliamo fare delle analisi?

Viviana Patti Informatica di base - 24/26 novembre

Visualizzazione di entry in formato flat file (FF)

DATO SEQUENZA• Sequenza di caratteri +HEADER di linee informative: • Locus: codice di identificazione della sequenza•Accession number: codice di accesso all'elemento all'interno della base di dati• Source/Organism: organismo da cui è stata isolata la sequenza • Riferimenti alla letteratura scientifica• Cross references -> riferimenti incrociati -> link a informazioni presenti in altre banche dati+FEATURES: •annotazioni tecniche su parte della sequenza

+

Visualizzazione di default nel caso di GeneBank:

Viviana Patti Informatica di base - 24/26 novembre

Cross references e Banche dati distribuite

Problema dell’accesso a banche dati distribuite su diversi siti e con strutture eterogenee

Cross referencingRilascio della banca dati in formato XML:

oltre ai dati viene fornita sia la struttura logica che la struttura fisica della banca dati

10

Viviana Patti Informatica di base - 24/26 novembre

Visualizzazione di entry Swissprot come FF

campo DBSOURCE: Banca datisorgente: SWISSPROT

Le annotazioni possono essere un po' diverse da banca dati a banca dati

Viviana Patti Informatica di base - 24/26 novembre

Banche dati biologiche: formatiFormato dei dati in NCBI in generale

FASTAsemplice sequenza di caratteri alfabetici leggibile da vari programmi per l’analisi delle sequenzecontiene poche informazioni collegate (annotazioni)

GenBankformato legacy (usato da vecchi sistemi in disuso)

ASN.1 (Abstract Syntax Notation.One)specifica generica dei dati, usata in tutti i DB di NCBIportabilità su diversi sistemi operativi diversi -> adatto allo scambio via software

Formati usati sia per dati risultato di ricerca sia per l'inserimento dati

Viviana Patti Informatica di base - 24/26 novembre

Esempio di file di GenBank

Formati:Formato ASN.1Formato XML

per manipolazione e presentazione sul WebFormato FASTA

Esempi di diverse visualizzazioni dello stesso file nei diversi formati, nelle pagine successive

Banche dati biologiche: formati

11

Viviana Patti Informatica di base - 24/26 novembre

ASN.1

Viviana Patti Informatica di base - 24/26 novembre

FASTA

Una sequenza in formato FASTAcomincia con una singola riga di descrizione il cui primo carattere è "<", seguita da righe contenenti la sequenza vera e propria

Viviana Patti Informatica di base - 24/26 novembre

XML

12

Viviana Patti Informatica di base - 24/26 novembre

formati standard versus formati legacyUna banca dati può supportare oltre ai formati standard (FASTA, ANS.1) dei formati di dati particolari, che possono essere usati da software per l'analisi del tipo dato trattato dalla banca datiEsempio: la banca dati di strutture di proteine ProteinData Bank (PDB)

formato legacy di PDBusato comunemente dai software per l'analisi di

proteinemmCIF:

solo il nuovo software per l'analisi delle strutture usa questo formato

Banche dati biologiche: formati

Viviana Patti Informatica di base - 24/26 novembre

Formati: PDBhttp://www.rcsb.org/pdb/ Attenzione: per potere utilizzare le

informazioni di questa banca dati è necessario avere un programma di visualizzazione molecolare -> che supporti il formato in cui ho scaricato le informazioni

Viviana Patti Informatica di base - 24/26 novembre

Entrez: salva il datoDa Entrez è possibile scaricare in locale il dato che interessa una volta trovatolo; salvo il dato in un file nel formato che mi interessa -> Lab

13

Viviana Patti Informatica di base - 24/26 novembre

Entrez: taxonomy

Da Entrez è possibile esplorare la classificazione degli organismi come riportata in Taxonomy

Viviana Patti Informatica di base - 24/26 novembre

Letteratura: PubMed: http://www.ncbi.nlm.nih.gov

Sequenze di acidi nucleici:GenBank: http://www.ncbi.nlm.nih.gov SRS: http://srs.ebi.ac.uk

Seq. del genoma:GenBank: http://www.ncbi.nlm.nih.gov

Sequenze proteiche:Swiss-Prot: http://www.expasy.ch/spro

Struttura delle proteine:Protein Data Bank: http://www.rcsb.org/pdb

Risorse Web: EBI Biocatalog: http://www.ebi.ac.uk/biocat/IUBio Archive: http://iubio.bio.indiana.edu

Banche dati biologiche: una lista