Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
2019.10.05. Bioinformatika 2
Bioinformatika 2 − 4. előadás
Prof. Poppe László
BME Szerves Kémia és Technológia Tsz.
Bioinformatika – proteomika
Előadás és gyakorlat
2 Bioinformatika 22019.10.05.
Biológiai adatbázisok
3 Bioinformatika 22019.10.05.
Másodlagos adatbázisok
A másodlagos szekvencia adatbázisok az elsődleges (azaz szekvenciákat tartalmazó)
adatbázisokból létrehozott szekvenciamintázat−adatbázisok.
Az elsődleges adatbázisok szekvenciáiból többszörös szekvencia összerendezések segítségével
felismerhetővé válnak a konzerválódott régiók, a motívumok.
A motívumok összessége az ujjlenyomat. Egy motívum alapján készíthető reguláris
kifejezés, vagy gyakorisági mátrix (ebből súlyozott gyakorisági mátrix képezhető).
4 Bioinformatika 22019.10.05.
Származtatott adatbázisok
Származtatott
adatbázis
Elsődleges vagy
másodlagos forrása
Tartalma
PROSITE SwissProt Reguláris kifejezések
(mintázatok)
Profiles (PROSITE része) SwissProt Súlyozott mátrixok (profilolok)
PRINTS SwissProt + TrEMBL Összerendezett motívumok
(ujjlenyomatok)
Pfam SwissProt Rejtett Markov modellek (HMM−ek)
BLOCKS* PROSITE / PRINTS
(20 éves)
Összerendezett motívumok
(blokkok)
eMOTIF** BLOCKS / PRINTS
(20 éves)
"Fuzzy" reguláris kifejezések
(mintázatok)
* Szekunder adatbázisból származtatott harmadlagos adatbázis ** Eszközként letölthető
5 Bioinformatika 22019.10.05.
Származtatott adatbázisok csoportosítása
6 Bioinformatika 22019.10.05.
Alkalmazásuk paradigmája
Hasonló szekvencia
Paralógia
Ortológia
Hasonló szekvencia - Hasonló szerkezet - Hasonló funkció
Homológia
Hasonló szerkezet Hasonló funkció
+++/- +/-
{ +?
Bioinformatika alapfeladata: új szekvencia -> a fehérje funkciója, szerkezeti család, stb.
Keresőprogramok (FASTA, BLAST, PSI−BLAST, stb.) -> homológia felismerésére jók, de
fontosabb az ortológia felismerése (a homológ lehet az ortológ paralógja is, ez kevésbé
hasznosítható)
Másodlagos adatbázisok (többnyire azonos funkciójú fehérjék szekvenciáiból származnak) az
ortológia felismerését segítik.
7 Bioinformatika 22019.10.05.
PROSITE – Reguláris kifejezések
ADLGAVFALCDRYFQ
SDVGPRSCFCERFYQ
ADLGRTQNRCDRYYQ
ADIGQPHSLCERYFQ
Négy protein összerendezése
[AS]−D−[IVL]−G−x4−{PG}−C−[DE]−R−[FY]2−Q
· Szabványos IUPAC egybetűs aminosav jelek
· Az egyes pozíciókat kötőjelek választják el· Egy aminosav−jel: teljesen konzerválódott pozíció (pl. −G−)
· Szögletes zárójel: a megadott aminosavak valamelyike (pl. [AS])
· Kapcsos zárójel: Bármelyik aminosav, kivéve a megadottakat (pl. {PG})
· x: Bármelyik aminosav
· Szám: ismétlődés. (pl. [FY]2, x4)
· x(2,4): x 2−szer, 3−szor vagy 4−szer.
https://prosite.expasy.org/
8 Bioinformatika 22019.10.05.
H-x-[LIVM]-{P}-x(0,2)-G-x(4)-W
PROSITE – Reguláris kifejezések
Példa:
H-C-I-N--G-YFRA-W
A szekvencia megfelel
https://prosite.expasy.org/
9 Bioinformatika 22019.10.05.
PROSITE - Mintázatok
Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az adott fehérjecsalád
biológiai funkciója szempontjából fontosak, pl.:
Enzimek katalítikus helyei
Prosztetikus csoportok kötőhelyei (hem, piridoxál-foszfát, biotin, stb.)
Fémionok kötésében fontos aminosavak
Diszulfid-hidakat kialakító ciszteinek
Különböző molekulákat (ADP/ATP, GDP/GTP, kalcium, DNS, stb.) megkötő helyek
Más proteineket megkötő helyek
Egy motívumos adatbázis, a SwissProt összerendelések alapján, kézzel, szakértők által
kísérleti és irodalmi adatok alapján elkészítve.
A kifejezések jóságát gondosan ellenőrzik.
Alapos, megbízható dokumentáció.
https://prosite.expasy.org/
10 Bioinformatika 22019.10.05.
PROSITE - Keresés
https://prosite.expasy.org/
11 Bioinformatika 22019.10.05.
PROSITE – Mintázat állomány
https://prosite.expasy.org/
12 Bioinformatika 22019.10.05.
PROSITE – Dokumentációs állomány
13 Bioinformatika 22019.10.05.
PRINTS – „Ujjlenyomatok”
A PRINTS tartalma
A fehérjecsaládokra jellemző "ujjlenyomatok":
összerendezések hézagmentes, konzerválódott szakaszainak ("motívumok") halmazai
A PRINTS készítése
Kiinduló adatbázis: SWISSPROT+TrEMBL
Egy fehérjecsalád néhány szekvenciájával manuális többszörös összerendezést készítenek
Megállapítják a konzerválódott régiók helyét (főleg vizuálisan), ezek a motívumok
(kezdeti motívumhalmaz)
Mindegyik motívumból gyakorisági mátrixot származtatnak.
A gyakorisági mátrix segítségével keresést végeznek (SwissProt+TrEMBL); bármely
szekvencia illeszkedése a motívumhoz pontozható a gyakorisági mátrix segítségével
A legjobb találatokat hozzáveszik és hozzárendezik a kezdeti motívumhoz, újabb
gyakorisági mátrixot számítanak
Az eljárást iteratívan ismétlik, amíg már nem lehet több szekvenciát hozzávenni a
motívumhoz.
http://130.88.97.239/PRINTS/index.php
14 Bioinformatika 22019.10.05.
Keresztreferenciák
Irodalmi hivatkozások
Dokumentáció (bőséges)
Az ujjlenyomat diagnosztikus erejét mutató statisztikai adatok
A valódi pozitív találatot adó fehérjék felsorolása
Kezdeti (iteráció előtti) motívumkészletek (pozícióval és az előző motívumtól
mért távolsággal)
Végső (iterációk utáni) motívumkészletek
PRINTS - Állományok
Az iterációk utáni motívumhalmaz diagnosztikus ereje nagyobb (jobban "diagnosztizálható"
vele egy új szekvenciának az adott fehérjecsaláddal való homológiája).
Több mint 1500 ujjlenyomatban 10000 feletti motívumot tartalmaz a PRINTS
PRINTS állományok
http://130.88.97.239/PRINTS/index.php
15 Bioinformatika 22019.10.05.
PRINTS - Adatbázis
http://130.88.97.239/PRINTS/index.php
16 Bioinformatika 22019.10.05.
BLOCKS állományok
Régebbi mátrix alapú megközelítés, SwissProt adatbázisból származtatva
BLOCKS – „Blokkok”
BLOCKS keresés (megszűnt, ma már fejlettebb módszerek elérhetőek)
Kulcsszó, leírás, stb. szerint
Egy szekvencia összehasonlítása a BLOCKS−szal (a súlyozott gyakorisági mátrix
segítségével): -> Egyező blokkokat mutatja, E értékkel.
A talált blokkok ún. logó−ja (aminosavgyakoriságok betűméretre konvertálva)
megjeleníthető, pl.:
17 Bioinformatika 22019.10.05.
Profilok – Prosite, Pfam
A profilok összerendezett szekvenciákból származtatott, a teljes szekvenciát leíró matematikai
objektumok. Két fajtájuk van:
Súlymátrixok: súlyozott gyakorisági mátrixok (mint a BLOCKS−nál), kiegészítve
pozíciófüggő gap opening és gap extension penalty−kkel (azaz a mátrix soraiban 22 szám van:
20 aminosav és 2 gap penalty). A PROSITE−ban ilyennel írják le azokat a fehérjecsaládokat,
amelyekre nem találnak jó reguláris kifejezést.
Rejtett Markov−modellek (Hidden Markov Model, HMM): Olyan valószínűségi modell,
amely szekvenciákat "generál": tkp. lineáris lánc, amely egyezés (Match, M), beszúrás
(insertion, I) és törlés (deletion, D) állapotokból áll, az ezek átmeneteit jellemző
számadatokkal.
18 Bioinformatika 22019.10.05.
A rejtett Markov−modell (angolul hidden Markov model, röviden HMM) egy algoritmus,
amely szekvenciákat generál. A gépnek véges sok állapota van, és ezek között lépked. Minden
egyes állapotában vagy minden egyes állapotváltáskor kibocsáthat egy szekvencia elemet (tehát
aminosavat vagy nukleotidot), ezekből áll össze a gép által generált szekvencia.
Hidden Markov−modellek (HMM)
19 Bioinformatika 22019.10.05.
Hidden Markov−modellek (HMM)
A körök és a négyzetek a gép állapotait, az összekötő nyilak az egyes állapotok között
lehetséges átmeneteket reprezentálják. Az M és az I állapotok ún. "kibocsátó" állapotok, tehát
amikor a gép ezekben az állapotokban van, akkor kibocsát magából egy szekvenciaelemet
(aminosavat vagy nukleotidot). A D állapotok nem kibocsátó állapotok. Mindegyik M és I
állapothoz tartozik egy táblázat, amely megmondja, hogy az adott állapotban a 20 aminosav, ill.
a 4 nukleotid közül melyiket milyen valószínűséggel bocsátja ki a gép (tehát a táblázat 20 vagy
4 számot tartalmaz). A HMM−nek további paraméterei az egyes állapotok közötti átmenetek
valószínűségei, tehát az állapotdiagramon lévő, az egyes állapotokat összekötő nyilak
mindegyikéhez tartozik egy valószínűségérték. A HMM rendszerint annyi M, I és D állapotot
tartalmaz, amilyen hosszú szekvenciát tipikusan generál. A fenti ábrán látható HMM például 5
M állapotot tartalmaz, tehát amennyiben működése során nem megy át sem I, sem D állapoton,
akkor 5 aminosavból vagy nukleotidból álló szekvenciát generál.
20 Bioinformatika 22019.10.05.
Hidden Markov−modellek (HMM)
Ha van egy rokon szekvenciákat tartalmazó szekvenciahalmazunk, akkor ennek az elemzésével,
az egyes pozíciókban található aminosavak gyakorisága és egyebek alapján definiálni lehet egy
olyan HMM−et, amely a kiinduló szekvenciahalmazhoz hasonló szekvenciákat generál. A HMM
felépítése, az állapotdiagram általában már eleve adott, a szekvenciahalmaz elemzésével pedig
meghatározhatjuk az M és az I állapotokban az egyes aminosavak, ill. nukleotidok
kibocsátásának valószínűségeit, valamint a gép egyes állapotai közötti átmenetek valószínűségeit.
A Pfam adatbázis ezeket a paramétereket (pontosabban a számítások megkönnyítése végett a
valószínűségek logaritmusát) tartalmazza minden egyes fehérjecsaládra.
Ha tehát a rokon szekvenciákat tartalmazó halmaz alapján definiáltunk egy HMM−et, akkor ezt a
bizonyos szekvenciacsaládot jól leíró modellhez jutunk, amely képes további, a kiinduló
szekvenciahalmazban lévő szekvenciákhoz hasonló szekvenciákat generálni. A szekvencia
analízisnél azonban a HMM−nek nem ez a képessége fontos, hanem az, hogy a HMM
segítségével meg lehet határozni egy új szekvenciáról, hogy azt milyen valószínűséggel
generálhatja az adott HMM. Ha ez nagy valószínűségérték, akkor a vizsgált, új szekvencia is
beletartozik abba a szekvenciacsaládba, amelyből a HMM megkonstruálása során kiindultunk.
21 Bioinformatika 22019.10.05.
Profilok – Prosite, Pfam
PROSITE profilállomány
Alap paraméterek: különböző átmenetek (pl. MI: Match−Insertion) pontszámai
M: Match (egyezés) állapotok, paraméterekkel (súlymátrix elemei)
I: Inszerció állapotok, paraméterekkel
Pfam állományok
Leíró állomány: Családok leírásai (szekvenciák felsorolása)
HMM állomány: A HMM−et adja meg.
Pfam−A: Jól dokumentált családok,
Pfam−B: rosszul dokumentált, automatikusan generált családok.
Keresés profiladatbázisokban
Szekvencia összehasonlítása a profilokkal (különféle programok, szerverek)
22 Bioinformatika 22019.10.05.
Integrált másodlagos adatbázis: INTERPRO
A legjobban dokumentált
másodlagos adatbázisok
(PROSITE, PRINTS)
integrálása egyéb
másodlagos adatbázisokkal
(Pfam, PRODOM, stb.).
Több ezer fehérjecsalád
23 Bioinformatika 22019.10.05.
Integrált másodlagos adatbázis: INTERPRO
24 Bioinformatika 22019.10.05.
Integrált másodlagos adatbázis: INTERPRO
25 Bioinformatika 22019.10.05.
Integrált másodlagos adatbázis: INTERPRO
26 2019.10.05.
Bioinformatics -
Proteomics
Integrált másodlagos adatbázis: INTERPRO
27 Bioinformatika 22019.10.05.
Integrált biológiai adatbázis – NCBI
28 Bioinformatika 22019.10.05.
Integrált biológiai adatbázis – NCBI
29 Bioinformatika 22019.10.05.
Integrált biológiai adatbázis –
NCBI Structure
30 Bioinformatika 22019.10.05.
Integrált biológiai adatbázis –
NCBI PubMed