Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az

2019.10.05. Bioinformatika 2

Bioinformatika 2 − 4. előadás

Prof. Poppe László

BME Szerves Kémia és Technológia Tsz.

Bioinformatika – proteomika

Előadás és gyakorlat

2 Bioinformatika 22019.10.05.

Biológiai adatbázisok


Másodlagos adatbázisok

A másodlagos szekvencia adatbázisok az elsődleges (azaz szekvenciákat tartalmazó)

adatbázisokból létrehozott szekvenciamintázat−adatbázisok.

Az elsődleges adatbázisok szekvenciáiból többszörös szekvencia összerendezések segítségével

felismerhetővé válnak a konzerválódott régiók, a motívumok.

A motívumok összessége az ujjlenyomat. Egy motívum alapján készíthető reguláris

kifejezés, vagy gyakorisági mátrix (ebből súlyozott gyakorisági mátrix képezhető).


Származtatott adatbázisok

Származtatott

adatbázis

Elsődleges vagy

másodlagos forrása

Tartalma

PROSITE SwissProt Reguláris kifejezések

(mintázatok)

Profiles (PROSITE része) SwissProt Súlyozott mátrixok (profilolok)

PRINTS SwissProt + TrEMBL Összerendezett motívumok

(ujjlenyomatok)

Pfam SwissProt Rejtett Markov modellek (HMM−ek)

BLOCKS* PROSITE / PRINTS

(20 éves)

Összerendezett motívumok

(blokkok)

eMOTIF** BLOCKS / PRINTS

(20 éves)

"Fuzzy" reguláris kifejezések

(mintázatok)

* Szekunder adatbázisból származtatott harmadlagos adatbázis ** Eszközként letölthető


Származtatott adatbázisok csoportosítása


Alkalmazásuk paradigmája

Hasonló szekvencia

Paralógia

Ortológia

Hasonló szekvencia - Hasonló szerkezet - Hasonló funkció

Homológia

Hasonló szerkezet Hasonló funkció

+++/- +/-

{ +?

Bioinformatika alapfeladata: új szekvencia -> a fehérje funkciója, szerkezeti család, stb.

Keresőprogramok (FASTA, BLAST, PSI−BLAST, stb.) -> homológia felismerésére jók, de

fontosabb az ortológia felismerése (a homológ lehet az ortológ paralógja is, ez kevésbé

hasznosítható)

Másodlagos adatbázisok (többnyire azonos funkciójú fehérjék szekvenciáiból származnak) az

ortológia felismerését segítik.


PROSITE – Reguláris kifejezések

ADLGAVFALCDRYFQ

SDVGPRSCFCERFYQ

ADLGRTQNRCDRYYQ

ADIGQPHSLCERYFQ

Négy protein összerendezése

[AS]−D−[IVL]−G−x4−{PG}−C−[DE]−R−[FY]2−Q

· Szabványos IUPAC egybetűs aminosav jelek

· Az egyes pozíciókat kötőjelek választják el· Egy aminosav−jel: teljesen konzerválódott pozíció (pl. −G−)

· Szögletes zárójel: a megadott aminosavak valamelyike (pl. [AS])

· Kapcsos zárójel: Bármelyik aminosav, kivéve a megadottakat (pl. {PG})

· x: Bármelyik aminosav

· Szám: ismétlődés. (pl. [FY]2, x4)

· x(2,4): x 2−szer, 3−szor vagy 4−szer.

https://prosite.expasy.org/


H-x-[LIVM]-{P}-x(0,2)-G-x(4)-W

PROSITE – Reguláris kifejezések

Példa:

H-C-I-N--G-YFRA-W

A szekvencia megfelel



PROSITE - Mintázatok

Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az adott fehérjecsalád

biológiai funkciója szempontjából fontosak, pl.:

Enzimek katalítikus helyei

Prosztetikus csoportok kötőhelyei (hem, piridoxál-foszfát, biotin, stb.)

Fémionok kötésében fontos aminosavak

Diszulfid-hidakat kialakító ciszteinek

Különböző molekulákat (ADP/ATP, GDP/GTP, kalcium, DNS, stb.) megkötő helyek

Más proteineket megkötő helyek

Egy motívumos adatbázis, a SwissProt összerendelések alapján, kézzel, szakértők által

kísérleti és irodalmi adatok alapján elkészítve.

A kifejezések jóságát gondosan ellenőrzik.

Alapos, megbízható dokumentáció.



PROSITE - Keresés



PROSITE – Mintázat állomány



PROSITE – Dokumentációs állomány


PRINTS – „Ujjlenyomatok”

A PRINTS tartalma

A fehérjecsaládokra jellemző "ujjlenyomatok":

összerendezések hézagmentes, konzerválódott szakaszainak ("motívumok") halmazai

A PRINTS készítése

Kiinduló adatbázis: SWISSPROT+TrEMBL

Egy fehérjecsalád néhány szekvenciájával manuális többszörös összerendezést készítenek

Megállapítják a konzerválódott régiók helyét (főleg vizuálisan), ezek a motívumok

(kezdeti motívumhalmaz)

Mindegyik motívumból gyakorisági mátrixot származtatnak.

A gyakorisági mátrix segítségével keresést végeznek (SwissProt+TrEMBL); bármely

szekvencia illeszkedése a motívumhoz pontozható a gyakorisági mátrix segítségével

A legjobb találatokat hozzáveszik és hozzárendezik a kezdeti motívumhoz, újabb

gyakorisági mátrixot számítanak

Az eljárást iteratívan ismétlik, amíg már nem lehet több szekvenciát hozzávenni a

motívumhoz.

http://130.88.97.239/PRINTS/index.php


Keresztreferenciák

Irodalmi hivatkozások

Dokumentáció (bőséges)

Az ujjlenyomat diagnosztikus erejét mutató statisztikai adatok

A valódi pozitív találatot adó fehérjék felsorolása

Kezdeti (iteráció előtti) motívumkészletek (pozícióval és az előző motívumtól

mért távolsággal)

Végső (iterációk utáni) motívumkészletek

PRINTS - Állományok

Az iterációk utáni motívumhalmaz diagnosztikus ereje nagyobb (jobban "diagnosztizálható"

vele egy új szekvenciának az adott fehérjecsaláddal való homológiája).

Több mint 1500 ujjlenyomatban 10000 feletti motívumot tartalmaz a PRINTS

PRINTS állományok



PRINTS - Adatbázis



BLOCKS állományok

Régebbi mátrix alapú megközelítés, SwissProt adatbázisból származtatva

BLOCKS – „Blokkok”

BLOCKS keresés (megszűnt, ma már fejlettebb módszerek elérhetőek)

Kulcsszó, leírás, stb. szerint

Egy szekvencia összehasonlítása a BLOCKS−szal (a súlyozott gyakorisági mátrix

segítségével): -> Egyező blokkokat mutatja, E értékkel.

A talált blokkok ún. logó−ja (aminosavgyakoriságok betűméretre konvertálva)

megjeleníthető, pl.:


Profilok – Prosite, Pfam

A profilok összerendezett szekvenciákból származtatott, a teljes szekvenciát leíró matematikai

objektumok. Két fajtájuk van:

Súlymátrixok: súlyozott gyakorisági mátrixok (mint a BLOCKS−nál), kiegészítve

pozíciófüggő gap opening és gap extension penalty−kkel (azaz a mátrix soraiban 22 szám van:

20 aminosav és 2 gap penalty). A PROSITE−ban ilyennel írják le azokat a fehérjecsaládokat,

amelyekre nem találnak jó reguláris kifejezést.

Rejtett Markov−modellek (Hidden Markov Model, HMM): Olyan valószínűségi modell,

amely szekvenciákat "generál": tkp. lineáris lánc, amely egyezés (Match, M), beszúrás

(insertion, I) és törlés (deletion, D) állapotokból áll, az ezek átmeneteit jellemző

számadatokkal.


A rejtett Markov−modell (angolul hidden Markov model, röviden HMM) egy algoritmus,

amely szekvenciákat generál. A gépnek véges sok állapota van, és ezek között lépked. Minden

egyes állapotában vagy minden egyes állapotváltáskor kibocsáthat egy szekvencia elemet (tehát

aminosavat vagy nukleotidot), ezekből áll össze a gép által generált szekvencia.

Hidden Markov−modellek (HMM)



A körök és a négyzetek a gép állapotait, az összekötő nyilak az egyes állapotok között

lehetséges átmeneteket reprezentálják. Az M és az I állapotok ún. "kibocsátó" állapotok, tehát

amikor a gép ezekben az állapotokban van, akkor kibocsát magából egy szekvenciaelemet

(aminosavat vagy nukleotidot). A D állapotok nem kibocsátó állapotok. Mindegyik M és I

állapothoz tartozik egy táblázat, amely megmondja, hogy az adott állapotban a 20 aminosav, ill.

a 4 nukleotid közül melyiket milyen valószínűséggel bocsátja ki a gép (tehát a táblázat 20 vagy

4 számot tartalmaz). A HMM−nek további paraméterei az egyes állapotok közötti átmenetek

valószínűségei, tehát az állapotdiagramon lévő, az egyes állapotokat összekötő nyilak

mindegyikéhez tartozik egy valószínűségérték. A HMM rendszerint annyi M, I és D állapotot

tartalmaz, amilyen hosszú szekvenciát tipikusan generál. A fenti ábrán látható HMM például 5

M állapotot tartalmaz, tehát amennyiben működése során nem megy át sem I, sem D állapoton,

akkor 5 aminosavból vagy nukleotidból álló szekvenciát generál.



Ha van egy rokon szekvenciákat tartalmazó szekvenciahalmazunk, akkor ennek az elemzésével,

az egyes pozíciókban található aminosavak gyakorisága és egyebek alapján definiálni lehet egy

olyan HMM−et, amely a kiinduló szekvenciahalmazhoz hasonló szekvenciákat generál. A HMM

felépítése, az állapotdiagram általában már eleve adott, a szekvenciahalmaz elemzésével pedig

meghatározhatjuk az M és az I állapotokban az egyes aminosavak, ill. nukleotidok

kibocsátásának valószínűségeit, valamint a gép egyes állapotai közötti átmenetek valószínűségeit.

A Pfam adatbázis ezeket a paramétereket (pontosabban a számítások megkönnyítése végett a

valószínűségek logaritmusát) tartalmazza minden egyes fehérjecsaládra.

Ha tehát a rokon szekvenciákat tartalmazó halmaz alapján definiáltunk egy HMM−et, akkor ezt a

bizonyos szekvenciacsaládot jól leíró modellhez jutunk, amely képes további, a kiinduló

szekvenciahalmazban lévő szekvenciákhoz hasonló szekvenciákat generálni. A szekvencia

analízisnél azonban a HMM−nek nem ez a képessége fontos, hanem az, hogy a HMM

segítségével meg lehet határozni egy új szekvenciáról, hogy azt milyen valószínűséggel

generálhatja az adott HMM. Ha ez nagy valószínűségérték, akkor a vizsgált, új szekvencia is

beletartozik abba a szekvenciacsaládba, amelyből a HMM megkonstruálása során kiindultunk.


Profilok – Prosite, Pfam

PROSITE profilállomány

Alap paraméterek: különböző átmenetek (pl. MI: Match−Insertion) pontszámai

M: Match (egyezés) állapotok, paraméterekkel (súlymátrix elemei)

I: Inszerció állapotok, paraméterekkel

Pfam állományok

Leíró állomány: Családok leírásai (szekvenciák felsorolása)

HMM állomány: A HMM−et adja meg.

Pfam−A: Jól dokumentált családok,

Pfam−B: rosszul dokumentált, automatikusan generált családok.

Keresés profiladatbázisokban

Szekvencia összehasonlítása a profilokkal (különféle programok, szerverek)


Integrált másodlagos adatbázis: INTERPRO

A legjobban dokumentált

másodlagos adatbázisok

(PROSITE, PRINTS)

integrálása egyéb

másodlagos adatbázisokkal

(Pfam, PRODOM, stb.).

Több ezer fehérjecsalád







26 2019.10.05.

Bioinformatics -

Proteomics



Integrált biológiai adatbázis – NCBI


Integrált biológiai adatbázis – NCBI


Integrált biológiai adatbázis –

NCBI Structure


Integrált biológiai adatbázis –

NCBI PubMed

Documents

Bioinformatika 2 4. előadás · 2019. 10. 5. · 9 2019.10.05. Bioinformatika 2 PROSITE - Mintázatok Többszörös összerendezésekkel nyert olyan homológ régiók, melyek az