31
Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA PROTEINA DI CUI CONOSCIAMO LA SEQUENZA UNA O PIU’ SPECIFICHE FUNZIONI A LIVELLO MOLECOLARE

Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Embed Size (px)

Citation preview

Page 1: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Sequenza-struttura-funzione

diverse combinazioni dei 20 aa

A

I

L

V

M

F

PY

S

TC

NQ

E

DR

K H

WG

Varietà di strutture e

funzioni

ASSOCIARE A CIASCUNA PROTEINA DI CUI CONOSCIAMO LA SEQUENZA UNA O PIU’ SPECIFICHE FUNZIONI A LIVELLO MOLECOLARE

Page 2: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Codice strutturale

ESPERIMENTO DI ANFINSEN

NELLA SEQUENZA PRIMARIA E’ SCRITTA LA STRUTTURA DI UNA PROTEINA

• PROTEINE CON SEQ. PRIMARIE SIMILI TENDONO AD AVERE STRUTTURE 3D SIMILI

• CONFRONTO TRA GENOMI → i geni essenziali (ciclo cell, sviluppo embrionale, signalling) soggetti a poca variabilità

Page 3: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Omologia, Identità, Similarità

Similarità –termine generico che indica una somiglianza che può essere dovuta a omologia, ma anche alla convergenza evolutiva. E’ un parametro quantitativo (posso quantificarla in %).

Omologia – implica un’origine evolutiva comune e spesso anche similarità. E’ un parametro qualitativo.

• Prima di Darwin l’omologia era definita morfologicamente

• Con la genetica si sa che è dovuta a geni (antenati) comuni

•Due sequenze sono omologhe se sono simili e hanno un antenato in comune

• Se due sequenze sono omologhe la loro struttura 3D sarà conservata

Page 4: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

•L’esistenza di similarità in brevi tratti di sequenze può essere casuale

• Similarità sufficientemente estesa implicano un’omologia (anche se non abbiamo una prova diretta di un comune antenato)

•Di conseguenza è possibile misurare il grado di significatività della similarità

OMOLOGIA OMOPLASIASimilarità dovuta a

convergenza evolutiva – derivano da linee diverse

in seguito ad es. a una pressione selettiva simile

Similarità dovuta ad evoluzione dallo stesso

antenato comune

Page 5: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Ortologhi/Paraloghi

Mediante confronti di geni simili tra genomi diversi, e di geni simili dello

stesso genoma, si può stabilire se due geni sono ortologhi o paraloghi, e da

qui ricostruire la probabile storia evolutiva

Proteine o geni omologhi possono appartenere alla stessa specie o a

specie diverse e possono avere origine in seguito a eventi di

Speciazione/Duplicazione

Page 6: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Ortologhi/ParaloghiSi può ipotizzare che i vari geni “simili” tra loro che troviamo nelle diverse specie, lo siano perché “parenti”, ovvero discendenti dallo stesso/i gene/i in specie antenate (speciazione) o nella stessa specie (duplicazione)Due sequenze (sia DNA, sia RNA, sia proteine) per cui possiamo fare questa ipotesi – basandoci sulla loro similarità – sono dette sequenze omologhe

Page 7: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Che cosa diversifica nel tempo due sequenze omologhe?

• I 3 meccanismi più comuni attraverso i quali le sequenze mutano nel corso dell’evoluzione sono:

1. Sostituzione2. Delezione3. Inserzione

Inserzione e delezione sono una l’opposto dell’altra e vengono indicate con il termine indels

Page 8: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Sukkar

Açucar Azucar

Zuckre

SucreZucker

Zucchero

Sakari

SuikerSugar

Sokker

Europa, circa 700 dC

Page 9: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

L’evoluzione delle paroleL’evoluzione delle parole

• Tutte le parole delle lingue moderne che indicano lo “zucchero” discendono da una parola antenata comune

• Tutte dalla stessa (“sukkar” - parola usata dagli arabi), alcune da un’antenata più vicina nel tempo (“zuckre” in Francia)

Page 10: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

L’evoluzione molecolare• Ipotesi: tutte le specie esistenti discendono da specie

“antenate”• Nel corso dell’evoluzione, da una specie possono nascere una

o più specie diverse (speciazione)• Allora, dovremmo essere in grado di trovare “tracce”

dell’evoluzione... nel DNA!• Se una specie discende da un’altra, allora il suo DNA è simile a

quello della specie “antenata”, con - ovviamente - delle variazioni

• Più la speciazione è vicina nel tempo, più il DNA (in sequenza) è “simile”

Page 11: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

L’albero della vita

Page 12: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Il - “vero” - albero della vita

Page 13: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

L’evoluzione delle parole

• Immaginiamo di non conoscere le parole “antenate” dello zucchero, e di doverci chiedere se due parole moderne in due lingue differenti sono “simili” tra loro

SUGAR

SUCRE

SUGR

SUCR

Page 14: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Allineamento

• L’”allineamento” è un modo di rappresentare schematicamente i legami evolutivi tra due o più parole (o sequenze), indicando sostituzioni, inserzioni e delezioni

S U G A R -S U C - R E

Sostituzione(mutazione)

Inserzioni(delezioni)

Page 15: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Allineamento (multiplo)

S U G - A R - S U C – - R E

Z U C K E R -

S O K K E R -

A Z U C - A R -

S A K - A R I A ç U C - A R -

-------------------- - S U C(K)A R -

Page 16: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

SSH_UOMO -MLLLARCLLLVLVSSLLVCSGLACGPGRGFGKRRHPKKLTPLAYKQFIPNVAEKTLGASSSH_TOPO MLLLLARCFLVILASSLLVCPGLACGPGRGFGKRRHPKKLTPLAYKQFIPNVAEKTLGAS :******:*::*.******.***************************************

SSH_UOMO GRYEGKISRNSERFKELTPNYNPDIIFKDEENTGADRLMTQRCKDKLNALAISVMNQWPGSSH_TOPO GRYEGKITRNSERFKELTPNYNPDIIFKDEENTGADRLMTQRCKDKLNALAISVMNQWPG *******:****************************************************

SSH_UOMO VKLRVTEGWDEDGHHSEESLHYEGRAVDITTSDRDRSKYGMLARLAVEAGFDWVYYESKASSH_TOPO VKLRVTEGWDEDGHHSEESLHYEGRAVDITTSDRDRSKYGMLARLAVEAGFDWVYYESKA ************************************************************

SSH_UOMO HIHCSVKAENSVAAKSGGCFPGSATVHLEQGGTKLVKDLSPGDRVLAADDQGRLLYSDFLSSH_TOPO HIHCSVKAENSVAAKSGGCFPGSATVHLEQGGTKLVKDLRPGDRVLAADDQGRLLYSDFL *************************************** ********************

SSH_UOMO TFLDRDDGAKKVFYVIETREPRERLLLTAAHLLFVAPHNDSATGEPEASSGSGPPSGGALSSH_TOPO TFLDRDEGAKKVFYVIETLEPRERLLLTAAHLLFVAPHND-----------SGPTPG--- ******:*********** ********************* ***..*

SSH_UOMO GPRALFASRVRPGQRVYVVAERDGDRRLLPAAVHSVTLSEEAAGAYAPLTAQGTILINRVSSH_TOPO -PSALFASRVRPGQRVYVVAERGGDRRLLPAAVHSVTLREEEAGAYAPLTAHGTILINRV * *******************.*************** ** *********:********

SSH_UOMO LASCYAVIEEHSWAHRAFAPFRLAHALLAALAPARTDRGGDSGGGDRGGGGGRVALTAPGSSH_TOPO LASCYAVIEEHSWAHRAFAPFRLAHALLAALAPARTD----------GGGGGSIP-AAQS ************************************* ***** :. :* .

SSH_UOMO AADAPGAGATAGIHWYSQLLYQIGTWLLDSEALHPLGMAVKSSSSH_TOPO ATEARGAEPTAGIHWYSQLLYHIGTWLLDSETMHPLGMAVKSS *::* ** .************:*********::**********

Page 17: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

ALLINEAMENTO DI SEQUENZE

A COPPIE

AGTTTGAATGTTTTGTGTGAAAGGAGTATACCATGAGATGAGATGACCACCAATCATTTC

||||||||||||||||||| |||||||| ||| | |||||| |||||||||||||||||

AGTTTGAATGTTTTGTGTGTGAGGAGTATTCCAAGGGATGAGTTGACCACCAATCATTTC

MULTIPLO

KFKHHLKEHLRIHSGEKPFECPNCKKRFSHSGSYSSHMSSKKCISLILVNGRNRALLKTl

KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCIGLISVNGRMRNNIKT-

KFKHHLKEHVRIHSGEKPFGCDNCGKRFSHSGSFSSHMTSKKCISMGLKLNNNRALLKRl

KFKHHLKEHIRIHSGEKPFECQQCHKRFSHSGSYSSHMSSKKCV----------------

KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCISLIPVNGRPRTGLKTs

Page 18: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Allineamento GLOBALE o LOCALE

GLOBALE considera la similarita’ tra due sequenze in tutta la loro lunghezza (da N- a C-terminale)

LOCALE considera solo specifiche REGIONI simili tra alcune parti delle sequenze in analisi (solo regioni a ↑ densità di

similarità generando più sub-allineamenti)

Global alignment

LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK ||.  | |  |  .|     .|  ||  || | ||

  TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG

Local alignment

   LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK             ||||||||.||||            TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHK

Page 19: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

ALLINEAMENTI DI SEQUENZAALLINEAMENTI DI SEQUENZA• Per confrontare delle sequenze queste devono essere allineate• ALLINEAMENTO: procedura per confrontare 2 o più sequenze ALLINEAMENTO: procedura per confrontare 2 o più sequenze

residuo per residuo in modo da massimizzare la similarità tra residuo per residuo in modo da massimizzare la similarità tra esse e ridurre il numero di operazioni da effettuare per esse e ridurre il numero di operazioni da effettuare per convertirle l’una nell’altra. E’ volto a stabilire una relazione convertirle l’una nell’altra. E’ volto a stabilire una relazione biunivoca tra le coppie di residui delle sequenze considerate.biunivoca tra le coppie di residui delle sequenze considerate.

• L’allineamento di sequenze è strumento indispensabile per:- CONFRONTO tra due sequenze;- RICERCA DI SEQ SIMILI a una in esame NELLE BANCHE DATI;- Determinazione di PATTERN e DOMINI CONSERVATI;- PREDIZIONE DI STRUTTURA 3D;- Stimare L’APPARTENENZA a UN CERTO FOLD;- COSTRUIRE UN ALBERO FILOGENETICO:- PREDIZIONE DI STRUTTURA SECONDARIA

Page 20: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

ALLINEAMENTO DI SEQUENZAALLINEAMENTO DI SEQUENZA• PER ESEGUIRE UN ALLINEAMENTO DI SEQUENZA SONO

NECESSARI ESSENZIALMENTE 3 STRUMENTI:

- Avere a disposizione una MATRICE DI SOSTITUZIONE. La matrice definisce la il GRADO di SIMILARITA’ tra amminoacidi;

- Avere a disposizione un ALGORITMO DI ALLINEAMENTO cercando di massimizzare il punteggio dato dalla matrice e valutando quanti gap (interruzioni) inserire;

- Avere a disposizione per evitare allineamenti senza senso una PENALITA’ per l’introduzione dei GAP.

LLTTVRNN LLTTVRNN

LLVRNN LL--VRNN

I GAP riflettono inserzioni/delezioni avvenute durante l’evoluzione

Page 21: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Similarità e distanza

Esistono due modi per misurare il grado di omologia tra due sequenze:

1. Calcolare la similarità contando i match2. Calcolare la distanza contando mismatch e indels

Similarità elevata ↔ bassa distanza

Due sequenze identiche hanno una distanza pari a zero

Page 22: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

SIMILARITA’ DI SEQUENZASIMILARITA’ DI SEQUENZA• Nel punteggio di similarità di sequenza si tiene conto del fatto Nel punteggio di similarità di sequenza si tiene conto del fatto

che gli amminoacidi a confronto in ogni posizione siano simili, che gli amminoacidi a confronto in ogni posizione siano simili, differenti o identici e di una penalità per i gap.differenti o identici e di una penalità per i gap.

• PER DEFINIRE LA SIMILARITA’ TRA LE DUE SEQUENZE SI USANO MATRICI BASATE SU PRESUPPOSTI DIVERSI:

- identità/non identità;- Caratteristiche chimico-fisiche degli aa;- Basate sul codice genetico: valutare quante mutazioni fare in una tripletta per

passare da un aa a un altro. (se ad es. si cambia un solo nucleotide la sostituzione la sostituzione sarà meno penalizzata perché si tratta di evento probabile nel corso dell’evoluzione)

- Basate su criteri evolutivi estrapolati da confronto di sequenze di proteine omologhe (MATRICI BLOSUM E PAM)

L

i

NG

ikiiab klbasS

1

)1)((),( 2 penalità per i gap

(apertura (fisso), estensione (lunghezza

dipendente))

Page 23: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Penalizzazioni degli indels

• Generalmente si usano funzioni del tipo “lineare”

wx = gx

• o, più frequentemente, di tipo “affine” wx = g + rx

oppurewx = g + r(x—1)

dove g è il punteggio di penalizzazione per l’apertura, r per l’elongazione e x la lunghezza dell’indel

Page 24: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Matrici di sostituzione

• Le matrici di sostituzione tengono conto dei criteri di similarità tra aminoacidi

• Comprendono 210 valori: • 20 (sulla diagonale) relativi al punteggio dell’appaiamento di

ciascun aminoacido con se stesso• 190 relativi a tutte le possibili sostituzioni aminoacidiche

• I 190 valori sono riportati anche nella loro parte speculare in modo che queste matrici hanno un formato 20 x 20 valori

• Le matrici di sostituzione più semplici considerano solo il criterio di identità e sono costituite da valori 0 o 1

• Altre matrici considerano la similarità chimica tra gli aminoacidi o il numero minimo di mutazioni per passare da un codon all’altro e attribuiscono un punteggio alle diverse sostituzioni

Page 25: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Similarità chimico-fisicaSimilarità chimico-fisica Gli aminoacidi possono essere raggruppati in base alle caratteristiche fisico-chimiche delle loro catene laterali. Su questa base un aminoacido può essere definito simile ad un altro

R KR Kbasicibasici

R K H D ER K H D Ecarichicarichi

I V F LI V F Lidrofobiciidrofobici

R K N QR K N Qpolaripolari

G AG Apoco ingombro stericopoco ingombro sterico

Page 26: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA
Page 27: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Similarità definita da criteri “genetici”Similarità definita da criteri “genetici”• Quando sostituisco un nucleotide all’interno di una regione codificante, l’effetto

dipende dalla sua posizione all’interno del codone

CUU (Leu/L)LeucineCUC (Leu/L)LeucineCUA (Leu/L)LeucineCUG (Leu/L)Leucine

In questo caso, cambiando il terzo nucleotide, non cambia nulla (mutazioni “silenti”)

AUU (Ile/I) IsoleucineAUC (Ile/I) IsoleucineAUA (Ile/I) IsoleucineAUG (Met/M) Methionine, Start

In questo caso, cambiando il primo nucleotide, ottengo amminoacidi non troppo differenti dalla leucina... il codice genetico sembra essere “robusto”, ma..

Page 28: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Mutazioni deleterie

La mutazione di un nucleotide nel sesto codone dell’emoglobina-beta(una delle sequenze che vanno a costituire l’emoglobina), causa la

sostituzione dell’amminoacido codificato, problemi nella struttura dell’emoglobina stessa, e il cambiamento di forma dei globuli rossi, risultando

nell’anemia falciforme

E V

Page 29: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

11 aprile 2023 29

Quale matrice PAM conviene utilizzare?

• In generale per due sequenze filogeneticamente vicine è meglio utilizzare una matrice PAM a basso indice e viceversa

• In assenza di informazioni si utilizzano PAM40, PAM120 e PAM 250

• PAM250 individua similarità del 20%• PAM120 individua similarità del 40%• PAM80 individua similarità del 50%• PAM60 individua similarità del 60%

Page 30: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

L’utilizzo della matrice di similarita’ appropriata per ciascuna analisi e’ cruciale per avere buoni risultati.

Infatti relazioni importanti da un punto di vista biologico possono essere indicate da anche molto debole similarità.

Sequenze

poco divergenti molto divergenti

BLOSUM80 BLOSUM62 BLOSUM45 PAM1 PAM120 PAM250

Page 31: Sequenza-struttura-funzione diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA

Confronto tra matrici PAM e BLOSUM• Le matrici PAM sono basate su un modello evolutivo• Le matrici BLOSUM sono basate su famiglie di proteine

• Le matrici PAM sono basate su un allineamento globale• Le matrici BLOSUM sono basate su un allineamento locale

• Le matrici PAM sono utili per studi evolutivi sulle proteine• Le matrici BLOSUM sono fatte per individuare le regioni conservate