12
BIOINFORMATICĂ - BIOMODELARE Introducere Odată cu intrarea în era informaticii, din ce în ce mai mulți și mai sofisticați algoritmi de calcul sunt implementați în cercetările biologice. Acest impact a dat naștere bioinformaticii/biomodelării. Ca definiție generală: bioinformatica reprezintă cercetarea, dezvoltarea sau aplicarea mijloacelor computaționale în scopul extinderii acestora în folosul achiziției, reprezentării, descrierii, stocării, analizei sau vizualizării datelor din cadrul științelor biologice. Biologia computațională, ca domeniu strâns legat de această problematică, poate fi definită ca dezvoltarea și aplicarea metodelor teoretice și data-analitice, a metodelor de simulare computațională și modelare matematică în scopul studierii sistemelor biologice (Biomedical Information Science and Technology Initiative). Din aceste definiții, reiese că bioinformatica se concentrează în special pe tehnologia (ingineria) dezvoltării infrastructurii și a instrumentelor necesare, în timp ce biologia computațională este mai mult o știință care se axează pe emiterea de ipoteze în scopul înțelegerii naturii. Bioinformatica este adânc înrădăcinată în trei discipline tradiționale: biologie, tehnologia informației și statistică. Atât biologia cât și informatica își revendică bioinformatica ca pe o sub-disciplină. Mai mult, bioinformatica are legături foarte strânse cu fizica, biofizica, matematica, chimia, biochimia ș.a. Pe de altă parte însă, bioinformatica devine, pe zi ce trece, tot mai mult, o disciplină de sine stătătoare, cu propriile fundamente teoretice, mecanisme analitice și tehnici computaționale, situație foarte asemănătoare cu biofizica care a evoluat dintr-un domeniu interdisciplinar (biologie și fizică) către o știință fundamentală. Scurt istoric Bioinformatica este un termen conceput în jurul anilor 1990, însă cercetări de bioinformatică s-au făcut începând cu 1960 când o serie de contribuții cheie în investigarea evoluției biomoleculare au pregătit terenul exploatării computerelor în studierea secvențelor biologice. În 1965 E. Zuckerkandl și L. Pauling au fost pionierii utilizării secvențelor în studii evolutive a modelelor de gene și proteine. În 1967 Fitch și Margoliash au dezvoltat metode computaționale (algoritmi) pentru construcția de arbori filogenetici, bazându-se pe secvențele de gene, pentru a înțelege evoluția acestora. Margaret Dayhoff 1 și colaboratorii au dezvoltat un algoritm de cuantificare numit matrice mutațională (PAM: Point accepted mutations), pentru a compara secvențe proteice și pentru a crea primele baze de date computerizate pentru astfel de secvențe destinate înțelegerii evoluției biomoleculare. În 1970 o serie de studii teoretice au deschis noi căi în cercetarea bioinformatică în raport cu diverse probleme biologice. B. Lee și F.M. Richards (1971) 2 au definitivat o metodă de reprezentare tridimensională a structurii unei proteine, iar în 1974, Peter Y. Chou și Gerald 1 Margaret Oakley Dayhoff, https://en.wikipedia.org/wiki/Margaret_Oakley_Dayhoff 2 Lee-Richards molecular surface: https://en.wikipedia.org/wiki/Accessible_surface_area ; B. Lee, F.M. Richards, 1971, The interpretation of protein structures: Estimation of static accessibility, Journal of Molecular Biology, Volume 55, Issue 3, 14 February 1971, Pages 379–400, IN3–IN4. https://en.wikipedia.org/wiki/Frederic_M._Richards

Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

Embed Size (px)

Citation preview

Page 1: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

BIOINFORMATICĂ - BIOMODELARE

Introducere Odată cu intrarea în era informaticii, din ce în ce mai mulți și mai sofisticați algoritmi de calcul sunt implementați în cercetările biologice. Acest impact a dat naștere bioinformaticii/biomodelării.

Ca definiție generală: bioinformatica reprezintă cercetarea, dezvoltarea sau aplicarea mijloacelor computaționale în scopul extinderii acestora în folosul achiziției, reprezentării, descrierii, stocării, analizei sau vizualizării datelor din cadrul științelor biologice. Biologia computațională, ca domeniu strâns legat de această problematică, poate fi definită ca dezvoltarea și aplicarea metodelor teoretice și data-analitice, a metodelor de simulare computațională și modelare matematică în scopul studierii sistemelor biologice (Biomedical Information Science and Technology Initiative).

Din aceste definiții, reiese că bioinformatica se concentrează în special pe tehnologia (ingineria) dezvoltării infrastructurii și a instrumentelor necesare, în timp ce biologia computațională este mai mult o știință care se axează pe emiterea de ipoteze în scopul înțelegerii naturii.

Bioinformatica este adânc înrădăcinată în trei discipline tradiționale: biologie, tehnologia informației și statistică. Atât biologia cât și informatica își revendică bioinformatica ca pe o sub-disciplină. Mai mult, bioinformatica are legături foarte strânse cu fizica, biofizica, matematica, chimia, biochimia ș.a. Pe de altă parte însă, bioinformatica devine, pe zi ce trece, tot mai mult, o disciplină de sine stătătoare, cu propriile fundamente teoretice, mecanisme analitice și tehnici computaționale, situație foarte asemănătoare cu biofizica care a evoluat dintr-un domeniu interdisciplinar (biologie și fizică) către o știință fundamentală.

Scurt istoric Bioinformatica este un termen conceput în jurul anilor 1990, însă cercetări de bioinformatică s-au făcut începând cu 1960 când o serie de contribuții cheie în investigarea evoluției biomoleculare au pregătit terenul exploatării computerelor în studierea secvențelor biologice. În 1965 E. Zuckerkandl și L. Pauling au fost pionierii utilizării secvențelor în studii evolutive a modelelor de gene și proteine. În 1967 Fitch și Margoliash au dezvoltat metode computaționale (algoritmi) pentru construcția de arbori filogenetici, bazându-se pe secvențele de gene, pentru a înțelege evoluția acestora. Margaret Dayhoff1 și colaboratorii au dezvoltat un algoritm de cuantificare numit matrice mutațională (PAM: Point accepted mutations), pentru a compara secvențe proteice și pentru a crea primele baze de date computerizate pentru astfel de secvențe destinate înțelegerii evoluției biomoleculare.

În 1970 o serie de studii teoretice au deschis noi căi în cercetarea bioinformatică în raport cu diverse probleme biologice. B. Lee și F.M. Richards (1971)2 au definitivat o metodă de reprezentare tridimensională a structurii unei proteine, iar în 1974, Peter Y. Chou și Gerald

1 Margaret Oakley Dayhoff, https://en.wikipedia.org/wiki/Margaret_Oakley_Dayhoff 2 Lee-Richards molecular surface: https://en.wikipedia.org/wiki/Accessible_surface_area ; B. Lee, F.M. Richards, 1971, The interpretation of protein structures: Estimation of static accessibility, Journal of Molecular Biology, Volume 55, Issue 3, 14 February 1971, Pages 379–400, IN3–IN4. https://en.wikipedia.org/wiki/Frederic_M._Richards

Page 2: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

D. Fasman propun o metodă de predicție a structurii secundare a proteinelor pornind de la o secvență proteică1. Între anii 1975-1978 o serie de laboratoare au început simularea dinamicii proteinelor și a mecanismelor de împachetare. Începând cu anii 1980, algoritmii bioinformatici au fost îmbunătățiți, iar calculatoarele au devenit din ce în ce mai puternice și mai accesibile (în 1978 este lansat pe piață primul procesor pe 16biți din clasa x86, intel 8086). În anul 1981 este definitivat și publicat algoritmul Smith-Waterman2, acesta fiind capabil să compare părți dintr-o secvență cu părți dintr-o altă secvență, mecanism numit aliniament local (local alignment). Acesta a pus bazele mecanismelor de căutare și comparare a secvențelor de mari dimensiuni. În 1985 a fost elaborat FASTA3 (Fast Sequence Similarity Search) de către David J. Lipman și William R. Pearson. În 1988 este creat NCBI4 (National Center for Biotechnology Information) în SUA cu scopul stocării, distribuției și analizei de date în domeniul bioinformatic. Epoca de aur a bioinformaticii a început în 1990 odată cu inițierea proiectului Genomul Uman. Odată cu acest proiect, creșterea exponențială a datelor în domeniul biomolecular a creat nevoia imperioasă ca acestea să fie gestionate, exploatate (mining) și interpretate, moment în care au fost constituite bazele de date biologice. Ulterior, creșterea puterii de calcul și scăderea prețului la echipamentele de tehnică de calcul, au condus la crearea a numeroase servere și supercomputere care să ofere cercetătorilor cât mai multe facilități în analiza datelor.

Scopul bioinformaticii Indiferent de definiție, domeniul bioinformaticii, în general, și al biomodelării, în special, este extrem de larg. Deși bioinformatica, teoretic, ar putea adresa toate problemele legate de domeniul bio, scopul principal este legat de nivelul biomolecular, în special de macromolecule (ADN, ARN, proteine), de complexe biologice care implică grupuri de gene sau agregate proteice și de rețele biomoleculare și căi de control a interacțiunilor gene-proteine (fig.1 și 2).

1. Interpretarea datelor obținute de tehnologii generatoare de volume mari de date (high-throughput technologies). Aceste tehnologii au devenit forța principală a biologiei moderne. Ele includ secvențiatoare pentru ADN, spectrometre de masă pentru identificarea proteinelor, microarray-uri pentru profiluri de expresie genică ș.a.m.d. De regulă, aceste tehnologii produc imagini sau spectre de dimensiuni foarte mari care necesită o prelucrare ulterioară prin diverse metode computaționale pentru a putea fi transformate în valori numerice utile.

2. Infrastructura computațională și gestiunea datelor. Datorită dimensiunii mari și complexității bazelor de date biologice, crearea și menținerea acestora este esențială. Bioinformatica asigură designul optim pentru stocare, actualizare și recuperare. Actualmente, în majoritatea cazurilor este disponibilă o interfață web pentru accesul la date cuplată și cu diverse facilități de analiză.

3. Descoperiri prin explorarea/exploatarea datelor (data mining) O altă sarcină importantă a bioinformaticii este și extragerea informațiilor utile din multitudinea de date produse de tehnologiile care le generează.

1 Chou–Fasman method, https://en.wikipedia.org/wiki/Chou%E2%80%93Fasman_method 2 Smith–Waterman algorithm, https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm 3 FASTA, https://en.wikipedia.org/wiki/FASTA 4 NCBI, https://en.wikipedia.org/wiki/National_Center_for_Biotechnology_Information

Page 3: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

4. Predicții Din această perspectivă, de la o secvență proteică unică se poate prevedea structura secundară/terțiară, localizarea proteinei, funcția acesteia ș.a.m.d.

Fig.1. Domeniul de aplicare al bioinformatici și domeniile conexe într-o matrice de abordări biologice și abordări de calcul

(după Dong Xu, James M. Keller, Mihail Popescu, Rajkumar Bondugula)

5. Design computațional Bioinformatica este larg folosită ca unealtă pentru design în medicină și bioinginerie pentru conceperea substanțelor (medicamentelor) bazate pe structuri proteice.

6. Modelare Din acest punct de vedere, modelarea sistemelor și a proceselor biologice cresc valoarea datelor biologice, o arie foarte bine delimitată în bioinformatică fiind modelarea structurilor

Page 4: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

proteice. Astfel, se pot modela aspecte foarte variate ale unei structuri proteice, incluzând geometria, energetica, dinamica ș.a.m.d. Modelarea poate fi folosită și pentru a interpreta rezultate experimentale și pentru a genera noi ipoteze.

Pe măsură ce bioinformatica își extinde scopul, un număr tot mai mare de arii apar și devin sub-discipline ale acesteia. Fiecare din acestea deține propriile tehnici și metode. Astfel au apărut bioinformatică structurală, proteomică computațională, imunoinformatică ș.a.m.d.

O problemă importantă în biologia moleculară este legată de înțelegerea mecanismului prin care enzimele reușesc să efectueze transformările chimice. Această problemă reprezintă o provocare, deoarece, cele mai multe tehnici experimentale ne furnizează doar o imagine statică (nicidecum una dinamică) a unei secvențe de evenimente ce au loc la nivel molecular în interiorul sitului (centrului) catalitic al unei enzime. Pentru o anumită clasă de enzime, totuși, algoritmii matematici se constituie în unelte deosebit de puternice în sprijinul biologiei moleculare.

Fig.2. Rolurile bioinformaticii în biologia modernă (după Dong Xu, James M. Keller, Mihail Popescu, Rajkumar Bondugula)

Studierea genomului Datele care includ secvențe de gene reprezintă cel mai abundent tip de date existent și din acest punct de vedere, există o paletă foarte bogată de algoritmi și aplicații care pot să ajute în analiza tiparelor (pattern-urilor) existente în interiorul acestor secvențe. Nu este nici o coincidență în faptul că secvențele întâlnite la cele mai diferite specii de microorganisme, plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare sunt convinși că înțelegerea evoluției acestor secvențe este primul pas spre înțelegerea evoluției organizării materiei vii. Comparația secvențelor de gene sau analiza lor este unul din procesele folosite în înțelegerea evoluției acestor secvențe și al rolului lor funcțional.

Comparația este cea mai importantă operație în biologia moleculară, în general, și în biologia computațională, în special, servind ca bază de plecare, pentru multe alte manipulări ulterioare, mult mai complexe. În mod simplist, aceste operații constau în găsirea părților din

Page 5: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

cadrul unei secvențe care sunt sau nu sunt identice. Cu toate acestea, în spatele acestui concept, aparent simplu, există o mare varietate de probleme distincte, care, de multe ori, necesită structuri de date și algoritmi diferiți pentru a conferi o soluție eficientă.

Ca exemple, vor fi descrise câteva situații care apar des în biologia computațională. În aceste exemple vor fi utilizate două noțiuni: similaritate a două secvențe, noțiune care exprimă o măsură a cât de asemănătoare sunt acestea și aliniamentul a două secvențe, noțiune ce reprezintă un mecanism prin care se plasează una dintre secvențe peste cealaltă în scopul de a evidenția corespondența dintre caracterele similare sau dintre sub-secvențele ce aparțin celor două secvențe comparate.

Ex.1. Există două secvențe care folosesc același alfabet, ambele aproximativ de aceeași lungime (zeci sau sute de caractere) și se cunoaște că secvențele sunt aproape egale, cu excepția câtorva diferențe izolate (deleții, inserții, substituții). Frecvența medie a acestor diferențe fiind scăzută, se dorește aflarea locațiilor precise unde apar aceste diferențe.

Ex.2. Există două secvențe în același alfabet cu câteva sute de caractere. Se încearcă să se identifice un prefix de pe una din ele similar cu un sufix de pe cealaltă.

Ex.3. Aceeași situație ca la Ex.2 doar că în acest caz există mai multe sute de secvențe care trebuie comparate (fiecare cu toate celelalte). Mai mult, se cunoaște faptul că marea majoritate a perechilor de secvențe nu sunt înrudite, deci ele nu vor avea același grad de similaritate.

Ex.4. Există două secvențe în același alfabet cu câteva sute de caractere fiecare. Se încearcă punerea în evidență a două sub-secvențe, câte una pe fiecare secvență, care să fie similare.

Ex.5. Aceeași situație ca în Ex.4 dar, în loc de două secvențe există o secvență care trebuie comparată cu alte câteva sute de secvențe.

Situații ca în cazul Ex.1 apar atunci când o aceeași genă este secvențiată de două laboratoare diferite și se dorește compararea rezultatelor. Situații ca în Ex.2 și Ex.3 se întâlnesc în contextul asamblării de fragmente în cadrul programelor de secvențiere a ADN pe scară largă. Ultimele două situații, Ex.4 și Ex.5, apar în contextul căutărilor de similarități locale în cazul exploatării bazelor de date cu secvențe extrem de mari.

Fig.3. Dogma centrală a biologiei moleculare

Ca o metaforă, genomul unui organism este asemănat cu un program (software) care este executat de către celulă (hardware) (fig.3.). Funcțiile biologice ale proteinelor nu sunt altceva decât rezultatul execuției acestui program. Abordarea aceasta este însă, excesiv de simplistă, dovadă o fac două aspecte importante:

Page 6: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

- programul ADN suferă modificări în timpul transcripției și translației, deci nu putem să aplicăm în mod simplist codul genetic pe o regiune de ADN cunoscută pentru a afla ce proteină corespunde acelei zone.

- expresia genică este un proces foarte complex care depinde de un context spațial și temporal. Astfel, nu toate genele din cadru unui genom sunt exprimate pe durata de viață a unui organism, unele sunt exprimate foarte des, iar altele sunt exprimate doar atunci când organismul trebuie să facă față unui fenomen extern (invazia unui virus). De asemenea, gene care sunt funcționale în mod normal pot fi represate datorită unor stimuli externi. Este știut faptul că expresia genelor este în esență independentă de context. Această caracteristică face ca biotehnologiile să funcționeze. Dar, această regulă nu este adevărată pentru toate genele. Dacă considerăm expresia genică, din cadrul unei celule, un proces computațional, putem afirma că în cazul genomului uman, au loc mai mult de 1018 astfel de procese care interacționează simultan.

Prin prisma acestor observații, un organism nu este determinat strict de genom, ci mai degrabă este expresia unor multitudini de interacțiuni cuplate într-o rețea complexă în care secvențele genomului sunt doar unul din factorii care contribuie la aceasta.

Compararea secvențelor Compararea secvențelor ADN și a proteinelor este o metodă analitică foarte importantă în bioinformatica aplicată. Modelarea structurală a proteinelor, designul și analiza expresiei, ca și o largă varietate de experimente biologice, sunt toate bazate pe aceste analize. Natura acționează conservativ, ea nu dezvoltă noi modele biologice pentru fiecare formă de viață, ci schimbă și adaptează în mod continuu un concept general. Noile funcționalități nu apar datorită apariției instantanee a unei noi gene, ci ele sunt modificate și dezvoltate de-a lungul evoluției. Datorită acestui fapt, se poate face transfer de informație funcțională de la o proteină la alta dacă ambele posedă un anumit grad de similaritate. Cu toate acestea, acest proces trebuie îndeplinit în mod critic cu condiția ca proteine similare să îndeplinească funcții diferite, în ciuda provenienței lor dintr-un strămoș comun.

Înainte de analiza orice posibilă corelație a secvențelor, este necesară definirea câtorva termeni. Secvențele înrudite sunt considerate a fi, de regulă, omoloage, însă, acest termen naște de multe ori confuzii. Omologia nu este o măsură a similarității, însă se poate afirma că acele secvențe au o istorie evolutivă comună și deci, posedă o secvență ancestrală comună. De aceea, definiția termenilor ortolog și paralog în combinație cu funcția unei proteine a condus la numeroase controverse. În general, biologii definesc acești termeni astfel:

- proteinele omoloage provenite de la specii diferite și care posedă aceleași funcții, sunt considerate ortoloage.

- proteinele omoloage care au funcții diferite în cadrul aceleași specii sunt considerate paraloage (hemoglobina/mioglobina).

Astfel, omologia nu este cuantificabilă (două secvențe sunt sau nu sunt omoloage) pe când identitatea și similaritatea sunt cuantificabile. Identitatea este reprezentată de raportul dintre umărul de aminoacizi sau nucleotide dintr-o secvență și numărul total de aminoacizi sau nucleotide. Spre deosebire de identitate, similaritatea nu este le fel de simplu de calculat. Similaritatea poate fi calculată cu ajutorul matricelor de similaritate (matrice de substituție sau matrice de scor). Matricele de similaritate scot în evidență probabilitatea cu

Page 7: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

care o secvență suferă transformări pe parcursul timpului față de strămoșul comun, aceasta fiind dependentă de perioada de timp și de rata mutațiilor.

Înainte de a decide identitatea sau similaritatea a două secvențe de aminoacizi sau nucleotide, trebuie efectuată o aliniere (fig.4). Mecanismul de aliniere constă în alăturarea arbitrară a celor două secvențe, poziționate una lângă cealaltă, calculându-se la fiecare mișcare (deplasare) a poziției o valoare numită scor. Acest algoritm se repetă până când se înregistrează cel mai bun scor. În cazul secvențelor de nucleotide, cea mai simplă soluție este calcularea unei matrice de identitate. În această situație, se pornește de la ipoteza că cele patru nucleotide nu manifestă nici o similaritate, astfel că, numai nucleotidele identice vor fi luate în calculul scorului final (fig.4a).

Fig.4. Exemple de aliniamente pentru secvențe de nucleotide și aminoacizi (stânga). Matricele de scor permit calcularea unui aliniament optim (dreapta). a) Utilizarea unei matrice de identitate pentru realizarea unui aliniament optim în cazul secvențelor de nucleotide. b) Utilizarea matricei BLOSUM62 pentru realizarea unui aliniament optim în cazul secvențelor de aminoacizi.

Pentru secvențele proteice, o matrice de identitate (substituție) nu este suficientă pentru a descrie procesele biologice și evolutive. Aminoacizii nu se schimbă cu aceeași probabilitate ca cea calculată teoretic. De ex. schimbarea acidului aspartic (GAU/GAC) cu acidul glutamic (GAA/GAG) a fost frecvent observată practic. Contrar acestei situații, pentru a se schimba acidul aspartic în triptofan, trebuie să intervină o mutație care să afecteze întregul triplet (GAU/GAC la UGG). De aceea, o astfel de substituție are o probabilitate de apariție mult mai mică. Un al doilea motiv pentru care o mutație care să favorizeze substituirea acidului aspartic în acid glutamic are probabilitate mare de apariție este cauzată de proprietățile similare pe care le au cei doi aminoacizi. În contrast cu această situație, acidul aspartic și triptofanul sunt diferiți din punct de vedere chimic, triptofanul hidrofob este de regulă situat

Page 8: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

în centrul proteinelor, în timp ce acidul aspartic hidrofil este situat de regulă la exterior (suprafață). O înlocuire a acidului aspartic cu triptofanul, poate să altereze foarte mult structura terțiară a unei proteine și implicit funcția ei. O astfel de modificare care compromite funcția unei proteine se întâmplă foarte rar.

De aceea matricea de substituție pentru aminoacizi descrie probabilitatea cu care aceștia se pot interschimba în decursul evoluției. Cele mai utilizate matrice de scor sunt: PAM (Position Accepted Mutation, Dayhoff 1978) și BLOSUM (Blocks Substitution Matrix, Henikoff 1992). Aceste matrice conțin valoarea logaritmată a relației dintre cele două probabilități de apariție a unei perechi de aminoacizi în cadrul aliniamentului. Astfel sunt luate în calcul atât probabilitatea coincidenței de apariție cât și probabilitatea unui eveniment evolutiv responsabil de această apariție. Valorile negative din cadrul matricei exprimă tocmai această coincidență de apariție, pe când valorile pozitive sugerează un anumit eveniment evolutiv. Deoarece rezultatele din matrice sunt logaritmate, suma acestor valori, conduce la o valoare finală care poate fi considerată o concluzie pentru aliniamentul făcut (fig.4b).

Aliniamentul poate fi realizat atât global cât și local. În cazul aliniamentului global, toate secvențele de nucleotide sau de aminoacizi sunt comparate unele cu altele pe întreaga lungime a secvenței. Cu toate acestea, chiar și secvențe foarte asemănătoare pot avea o singură deleție sau inserție și în consecință, pot avea un număr diferit de nucleotide, implicit de aminoacizi. Pentru a reprezenta aceste aliniamente în mod corespunzător, trebuie inserate gap-uri în secvență. Din punct de vedere teoretic, orice secvență poate fi aliniată prin introducerea de gap-uri. În cazul în care se recurge la introducerea gap-urilor, pentru a preveni această problemă, au fost implementate mecanisme de penalizare a scorului. Valoarea de penalizare este scăzută din scorul aliniamentului pentru ca valoarea finală să fie cât mai edificatoare. Este evident, deci, că aliniamentul global cu cel mai mare scor total este considerat ca fiind comparația optimă între secvențele folosite. Această metodă este bazată pe un algoritm dezvoltat în 1970 de Needleman și Wunsch.

În alte situații, interesul se concentrează numai pe anumite sectoare din cadrul secvențelor (situri de legare a ATP, domenii de legare a ADN, situri de glicozilare1 ș.a.m.d.). În acest caz se fac aliniamente locale a căror scoruri sunt calculate în același mod, pe baza unei matrice de substituție și a introducerii de secvențe gap acolo unde este necesar. În acest caz însă, traversarea matricei nu se mai face de la dreapta jos spre stânga sus ci, începe și se termină în locații arbitrare. Dacă scorul nu mai poate fi mărit, procedura de aliniere se oprește. Astfel, alinierea locală cu cel mai mare scor este considerată optimă. Această metodă se bazează pe algoritmul Smith-Waterman (1981).

Cum a fost concepută matricea BLOSUM62 Primele mecanisme de aliniere erau bazate pe calcule simple, era utilizată valoarea -1 pentru fiecare nepotrivire și -1 pentru fiecare inserție/deleție efectuată. Algoritmii actuali folosesc pentru aminoacizi matricele de scor BLOSUM62 și PAM2502. Ceea ce se dorește a se găsi, este relația de omologie între secvențe (legătura evolutivă). Din această cauză, scorul obținut trebuie să reflecte cât mai bine acest aspect. În teorie, se afirmă că dacă se dorește

1 Proces enzimatic prin care se leagă zaharide în scopul obținerii glicanilor (polizaharide sau oligozaharide) liberi sau atașați de structura proteică. 2 Cele două matrice de scor nu sunt echivalente și nu pot fi comparate datorită metodelor diferite folosite la obținerea scorului, PAM100 nu este egală cu BLOSUM100. O echivalență pentru cele două tipuri ar fi: PAM100-BLOSUM90; PAM120-BLOSUM80; PAM160-BLOSUM60; PAM200-BLOSUM52; PAM250-BLOSUM45

Page 9: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

compararea a două ipoteze, un scor foarte bun ar fi dat de logaritmul raportului probabilităților celor două ipoteze. Dacă se presupune că fiecare pereche de aminoacizi aliniată este independentă din punct de vedere statistic față de celelalte (matematic este convenabil, biologic însă este destul de nesigur) scorul aliniamentului este dat de suma scorurilor individuale obținute din logaritmarea raportului probabilităților menționate anterior pentru fiecare pereche aliniată. Aceste scoruri individuale generează o matrice de scor de dimensiuni 20 x 20. Ecuația care stă la baza calculării scorului individual s(a,b) pentru alinierea a doi aminoacizi a și b este:

𝑠(𝑎, 𝑏) =1

𝜆𝑙𝑛

𝑝𝑎𝑏

𝑓𝑎𝑓𝑏

Numărătorul pab reprezintă probabilitatea1 celor două ipoteze supuse testării: cei doi aminoacizi sunt corelați pentru că sunt omologi. Astfel pab este ținta frecvențelor, adică probabilitatea cu care ne așteptăm să întâlnim a și b aliniați în cadrul unui aliniament. Numitorul fafb este probabilitatea ipotezei nule, adică cei doi aminoacizi să nu fie corelați, această situație putând să survină în mod independent. Astfel fa și fb sunt frecvențe de fond (ale mediului), adică probabilitățile de observare a aminoacizilor a și b aproape în fiecare secvență proteică. λ reprezintă un factor de scalare, acesta este de obicei ales (fixat) cu scopul de a rotunji toate valorile din matricea de scor la numere întregi.

Dacă ne-am aștepta să găsim a și b aliniați împreună în secvențe omoloage mai des decât ne-am aștepta să apară întâmplător (pab > fafb), atunci raportul este mai mare ca 1 și scorul este pozitiv. Din punct de vedere operațional putem afirma că scoruri pozitive înseamnă substituții conservative și scoruri negative indică substituții non-conservative. Această definiție a substituției conservative într-o matrice de scor este pur statistică. Ea nu are nici o legătură cu structura aminoacizilor, cu biofizica și biochimia acestora. Aceste aspecte explică câteva detalii ale BLOSUM62 care ar putea să pară contraintuitive. De ex. triptofanul (Trp/W) ca pereche are un scor de +11 în timp ce leucina (Leu/L) ca pereche are doar +4. De ce nu ar avea toate perechile de aminoacizi scoruri identice? Cu cât aminoacidul este mai rar, cu atât mai puțin probabil este ca el să fie identificat ca făcând pereche din pură întâmplare în cadrul unui aliniament. În cazul BLOSUM62 se consideră că perechea L/L este mult mai comună decât W/W (pLL = 0,0371, pWW = 0,0065), iar triptofanul (W) este un aminoacid mult mai rar decât leucina (fL = 0,099, fW = 0,013). Dacă se folosesc aceste valori în ecuația anterior menționată, utilizând λ = 0,347 se obține +3,8 pentru L/L și +10,5 pentru W/W, valori care sunt rotunjite la +4 respectiv la +11.

Un alt exemplu este acela în care matricea BLOSUM62 acordă +1 unui aliniament aparent non-conservativ, a acidului glutamic (Glu/E) cu lizina (Lys/K) față de alanină (Ala/A) cu leucină (Leu/L) când se introduce o valoare de penalizare cu -1. Perechea A/L este mult mai frecventă decât perechea K/E în cadrul omologiilor (pAL = 0,0044, pKE = 0,0041), dar A și L sunt aminoacizi foarte comuni (pA = 0,074, pL = 0,099, pK = 0,058, pE = 0,054)2. Utilizând λ = 0,347 se obține A/L = -1,46 și K/E = +0,76, rotunjit -1 respectiv +1.

Toate aceste calcule care se finalizează cu obținerea unui scor rezidă în identificarea frecvențelor țintă. Cum obținem însă aceste frecvențe? Frecvențele țintă reprezintă probabilitatea de a identifica a,b în aliniamente omoloage. Astfel, ideea de bază este de a prelua o mulțime de date reprezentate de aliniamente pereche de încredere, similare cu

1 Probabilitățile se adună; frecvențele se înmulțesc. 2 Probabilitățile individuale se consideră frecvențe și se înmulțesc.

Page 10: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

aliniamentul presupus și de a identifica frecvența cu care apare fiecare pereche de aminoacizi. Cu cât avem mai multe informații despre cele două secvențe supuse alinierii cu atât mai bine vom fi capabili să estimăm care ar putea fi frecvențele țintă. De ex. dacă știm că cele două secvențe supuse alinierii aparțin unor proteine integrale din membrana celulară, frecvențele țintă ar fi estimate (influențate) pe baza hidrofobicității. De aceea există nenumărate căi de a împărți bazele de date și de a estima noi matrice de scor particularizate pentru anumite organisme sau pentru anumite tipuri de secvențe. Pentru o matrice cu scop general ca BLOSUM62, nu este posibilă utilizarea unor informații specifice anumitor secvențe sau specii. O sursă de informație rămâne însă esențială: distanța evolutivă. Frecvențele țintă depind foarte mult de distanța evolutivă dintre două secvențe. Dacă cele două specii au fost supuse unei divergențe recente, frecvențele țintă ar trebui să se îndrepte spre o soluție finală reprezentată de aminoacizi identici (cu cât analizăm o relație cu un grad mai mare de divergență, cu atât frecvențele țintă vor fi mai aplatizate din punct de vedere grafic). Toate matricele moderne de scor pentru aminoacizi sunt, deci, estimate pe baza frecvențelor observate în cadrul aliniamentelor cu date cu un înalt grad de încredere folosind câteva proceduri în scopul realizării unor serii de matrice înrudite între ele care să fie adecvate diferitelor divergențe presupuse.

Procedura pe care Henikoff a folosit-o pentru a estima matricele de tip BLOSUM a fost simplă. Henikoff a utilizat o bază de date foarte mare cu aliniamente cu înalt grad de încredere și a luat în considerare doar aliniamentele cu secvențele pereche mai puține sau egale față de un anumit prag procentual de identitate. A rezultat astfel, în cazul, BLOSUM62, un prag de identitate pentru frecvențele țintă mai mic sau egal cu 62%. De aceea, în cazul BLOSUM80, un prag de 80% conferă frecvențe țintă mult mai înalt conservate, iar în cazul BLOSUM45, un prag de identitate de 45% conferă frecvențe țintă cu un grad mai mare de divergență. Din punct de vedere empiric, matricele BLOSUM se comportă destul de bine, ele fiind utilizate ca standard în programarea algoritmilor de aliniere. Acest mecanism de calcul poate fi folosit și în cazuri mai simple, pentru o matrice de scor ADN optimizată în găsirea a 88% identități în cadrul unui aliniament. În aceste condiții putem porni de la următoarele date probabilistice:

- toate nepotrivirile au șanse egale de apariție - ambele secvențe au compoziție uniformă de 25% pentru fiecare dintre nucleotide.

Astfel, valorile ar fi de 0,22 pentru cele 4 identități posibile și de 0,01 pentru fiecare din cele 12 nepotriviri. Dacă frecvențele de fond (ale mediului) fa,fb = 0,25 pentru toate a,b, considerând λ = 1, ecuația anterioară va conduce la următorul rezultat: +1,26 (+1) pentru potrivire și -1,83 (-2) pentru nepotrivire. Cu un λ = 0,25, prin rotunjire se obține +4 respectiv -7. În acest caz, se descrie în mod direct felul în care ar trebui să arate aliniamentele omoloage cu 88% identități, iar matricea de scor rezultată este optimă pentru detectarea aliniamentelor ce se potrivesc cu frecvențele țintă.

Remarcabil este faptul că, chiar dacă încercăm să creăm o matrice de scor arbitrară, aceasta implică utilizarea unor frecvențe țintă. De aceea este extrem de important să cunoaștem care sunt aceste frecvențe țintă implicite (de referință) pentru a putea determina ce fel de aliniament va fi detectat. Necesitatea unor frecvențe de referință chiar în cazul unei matrice arbitrare poate fi explicată de următoarea ecuație:

Page 11: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

𝑠(𝑎, 𝑏) =1

𝜆𝑙𝑛

𝑝𝑎𝑏

𝑓𝑎𝑓𝑏 => 𝜆 ⋅ 𝑠(𝑎, 𝑏) = 𝑙𝑛

𝑝𝑎𝑏

𝑓𝑎𝑓𝑏 =>

𝑝𝑎𝑏

𝑓𝑎𝑓𝑏= 𝑒𝜆⋅𝑠(𝑎,𝑏) 1 => 𝑝𝑎𝑏 = 𝑓𝑎𝑓𝑏𝑒𝜆𝑠(𝑎,𝑏)

Însă, din punct de vedere probabilistic, suma tuturor probabilităților trebuie să fie egală cu 1, deci:

∑ 𝑓𝑎𝑓𝑏𝑒𝜆𝑠(𝑎,𝑏)

𝑎,𝑏

= 1 𝑝𝑒𝑛𝑡𝑟𝑢 𝑎, 𝑏 ∈ {𝐴, 𝐶, 𝐺, 𝑇}

Această ecuație poate fi rezolvată pentru orice λ ≠ 0. O astfel de valoare λ există atât timp cât matricea de scor întrunește două proprietăți:

- trebuie să aibă cel puțin o valoare pozitivă. - valoarea preconizată a scorului pentru aliniamentele făcute aleatoriu să fi negativă.

Exceptând cazul excepțional pab = fafb pentru toate a,b (caz inutil) toate matricele de scor au aceste proprietăți necesare aliniamentelor locale (BLAST/FASTA)2. De ex. FASTA și WU-BLASTN3 din cadrul EMBL-EBI utilizează un sistem de scor bazat pe +5/-4 potriviri/nepotriviri, în timp ce BLASTN din cadrul NCBI4 utilizează un sistem de scor bazat pe +1/-2. Este dificil de estimat dacă cele două mecanisme sunt mult diferite între ele. Practic cele sisteme de scoring sunt aproape opuse. NCBI-BLASTN (+1/-2) este optim pentru detecția omologiilor în cadrul aliniamentelor ADN cu potriviri de 95%, în timp ce FASTA și WU-BLASTN (+5/-4) este optim pentru detecția omologiilor ADN care au doar 65% identități fiind la limita posibilităților metodelor de aliniament prin gap-uri de a recunoaște aliniamente ADN omoloage.

Bibliografie Eddy S.R., 2004, Where did the BLOSUM62 alignment score matrix come from?, Nature Biotechnology, Vol.22, No.8, pp:1035-1036.

Selzer P.M., Marhöfer R.J., Rohwer A., 2008, Applied Bioinformatics, An Introduction, Springer-Verlag Berlin Heidelberg.

Xu D., Keller J.M., Popescu M., Bondugula R., 2008, Applications of fuzzy logic in bioinformatics, Imperial College Press, London

1 ln(x) = a <=> x = ea . 2 BLAST (Basic Local Alignment Search Tool) reprezintă un algoritm pentru compararea informației din secvențele biologice primare, cum ar fi secvențele de aminoacizi ale diferitelor proteine sau secvențele de nucleotide ale diferitelor lanțuri ADN. FASTA este un program pentru aliniere a secvențelor ADN sau proteine realizat de David J. Lipman și William R. Pearson în 1985. Actualmente, ca o moștenire a acestui program, a rămas formatul FASTA utilizat ca standard în bioinformatică pentru secvențe de nucleotide sau aminoacizi. 3 http://www.ebi.ac.uk/Tools/sss/ 4 http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastHome

Page 12: Introducere - bio.uaic.ro · plante și animale prezintă o similaritate în complexitatea acestor tipare. Din acest punct de vedere, cercetătorii din domeniul biologiei moleculare

Anexă

Matricea BLOSUM62

Proprietățile fizico-chimice a celor 20 de aminoacizi proteinogenici.