24
Címkézett hálózatok modellezése Básti József Diplomamunka 2010

Címkézett hálózatok modellezése

  • Upload
    thuong

  • View
    24

  • Download
    0

Embed Size (px)

DESCRIPTION

Címkézett hálózatok modellezése. Básti József Diplomamunka 2010. Hálózatok. Csomópontok és élek (kapcsolatok) Csomópontok egymásra gyakorolt hatása Idegsejtek, fehérjék, gének, emberek, gazdasági szereplők kölcsönhatása Reprezentálás: gráffal Kezdetek – Euler és a Königsbergi hidak. - PowerPoint PPT Presentation

Citation preview

Page 1: Címkézett hálózatok modellezése

Címkézett hálózatok modellezése

Básti JózsefDiplomamunka 2010

Page 2: Címkézett hálózatok modellezése

Hálózatok

Csomópontok és élek (kapcsolatok) Csomópontok egymásra gyakorolt hatása Idegsejtek, fehérjék, gének, emberek, gazdasági szereplők

kölcsönhatása Reprezentálás: gráffal Kezdetek – Euler és a Königsbergi hidak

Page 3: Címkézett hálózatok modellezése

Hálózati modellek Véletlen gráfok – Erdős-Rényi modell

N csúcs, közöttük p valószínűséggel van él

Kis-világ modellek – Watts-Strogatz modell

Klaszterezettségi együttható Skálafüggetlen modellek – Barabási-

Albert modell Növekedő hálózat, preferenciális

kapcsolódással – „hub”-ok létrejötte

Page 4: Címkézett hálózatok modellezése

Címkézett hálózatok Címke – bármilyen információ, amit a csúcsról tudunk

Page 5: Címkézett hálózatok modellezése

Címkézett hálózatok A címkék eloszlása és a topológia közötti kapcsolatok egy

érdekes új kutatási irányt adnak Korábbi eredmények

Címke asszortativitási exponens

Page 6: Címkézett hálózatok modellezése

Célkitűzések

Új növekedő hálózati modell, mely figyelembe veszi a címkéket

A hálózati modell összehasonlítása egy fehérje-fehérje kölcsönhatási hálózattal

Page 7: Címkézett hálózatok modellezése

Az új hálózati modell Erdős-Rényi mag A növekedés során fokszám és címkehasonlóság alapú

preferenciális kapcsolódási szabály, a Barabási-Albert modellel analóg módon

Page 8: Címkézett hálózatok modellezése

Az új hálózati modell Címkehasonlóság – szemantikus hasonlóság

Lin-féle hasonlóság

Címkegyakoriság (p), közös felmenők (Γ) Csúcsok közötti hasonlóság

Ωi – az i. csúcs címkéinek halmaza Hány éllel kötődjön be az új csúcs

Több eloszlással próbálkoztam, végül:

Page 9: Címkézett hálózatok modellezése

A modell implementálása C++ Konkrét modellparamétereket (csúcsok száma, élek száma,

címkék, címkehasonlóság) a MIPS fehérje-fehérje kölcsönhatási hálózatból vesszük

Adott a csúcsok és élek száma 3473 csúcs, 10041 él

Adottak a csúcsok címkéi Irányított aciklikus gráf (Genome Ontology Database)

Delták, lefutások száma 11 különböző δ mellett (0, 0.1, 0.2 … 1) 5 -10 lefutás

Page 10: Címkézett hálózatok modellezése

Kiértékelés Fokszámeloszlás

Fokszám előfordulási valószínűsége - p(k) – 5 lefutás átlagolása és binelés Kumulatív eloszlás

– nagy fokszámok vizsgálata Címke asszortativitási exponens

Címkeindukált részgráfok legyártása Csúcs-él párok átlagolása, binelése Illesztés (M~Nµ), exponensek átlagolása

Csúcsok hasonlósága a távolság függvényében minden csúcs összes 1., 2., stb. szomszédjára és 5 lefutásra vett átlaga

Vizualizálás 1., 2. és 3. szomszédok ábrázolása Különböző paraméterre és az eredeti hálózatban

Page 11: Címkézett hálózatok modellezése

EredményekFokszám- és kumulatív eloszlások δ növekedtével növekszik

a fokszámjelleg Lassabban csengnek le

Az eredetit δ 0,8 – 1 értékénél közelíti meg

δ → 0 esetén egyre inkább véletlen jelleg, de attól távol marad

Page 12: Címkézett hálózatok modellezése

EredményekCímke asszortativitási exponens

δ növekedtével Növekszik a µ exponens Csökken a címke-

éleloszlás korreláció Eredeti hálózat

δ közelebb van 1-hez, nagyobb a korreláció

Modellhálózat A klikkek hiánya miatt

kis δ esetén is nagy µ

Page 13: Címkézett hálózatok modellezése

EredményekHasonlóság és távolság

Kis δ – hasonlósági preferencia a bekötésnél

Átlagos hasonlóság felett lesznek az elsőszomszédok

Nagy δ – fokszám preferencia

Átlagos hasonlóság körül vagy alatta

Valódi hálózat Elég gyorsan beáll a

hasonlóság az átlagra

Page 14: Címkézett hálózatok modellezése

EredményekHálózatok vizualizálása

Hálózatrészletek Csúcs 1., 2. és 3. szomszédjai Ezen csúcsok közti élek

δ = 0 Hasonlósági bekötés Gyenge skálafüggetlen jelleg

δ = 1 Fokszám szerinti bekötés Skálafüggetlen

Eredeti hálózat Klikkek létrejötte

Page 15: Címkézett hálózatok modellezése

Összefoglalás Cél: egy olyan modell, mely figyelembe veszi a címkehasonlóságot;

ezen modell illesztése egy fehérje-fehérje kölcsönhatási hálózathoz A modellt a Barabási-Albert-féle preferenciális csatolási szabály

alapján írtam fel és egy C++ program segítségével implementáltam Modell és eredeti hálózat statisztikai jellemzőinek összehasonlítása

Fokszám- és kumulatív eloszlás, címke asszortativitási exponens, hasonlóság a távolság függvényében, ill. hálózatrészletek megtekintése

Hiányosságok: nincsenek nagy, sűrűn összekötött csoportok Kitekintés

klikkek bekapcsolódása, későbbi átcsoportosítás – klikkpreferencia

Page 16: Címkézett hálózatok modellezése

Köszönöm a figyelmet! Témavezető:

Dr. Palla Gergely MTA-ELTE Statisztikus és Biológiai Fizika Kutatócsoport

Page 17: Címkézett hálózatok modellezése

Címkézett hálózatok Címke – bármilyen információ, amit a csúcsról tudunk

Állandó címkék Biológiai hálózatban – csúcsok által reprezentált egységek biológiai

funkciójára utalnak (fehérjék, gének esetén) Időben változó címkék

Társadalmi hálózat – a kapcsolatban lévő emberek egyre hasonlóbbá válnak

Címke asszortativitási exponens Címkék irányított aciklikus gráfba való szerveződése Címkeindukált részgráfok Csúcs-él párok átlagaira való illesztés → exponens (M~Nµ) Exponens 1 és 2 között (korreláció – véletlen jelleg)

Page 18: Címkézett hálózatok modellezése

Címkézett hálózatok A címkék eloszlása és a topológia közötti kapcsolatok egy

érdekes új kutatási irányt adnak Szemantikus hasonlóság

Címkék irányított aciklikus gráfba való szerveződése Címkék közötti hasonlóság definiálása

Címkegyakoriság (p), közös felmenők (Γ) Csúcsok közötti hasonlóság definiálása címkéik alapján

Ωi – az i. csúcs címkéinek halmaza

Page 19: Címkézett hálózatok modellezése

Célkitűzések Új hálózati modell

Növekedő Fokszám és hasonlóság alapú preferenciális kapcsolódás Induló fokszám egy adott eloszlásból van Valós biológiai fehérje-fehérje kölcsönhatási hálózatot modellez

Adott a csúcsok és élek száma 3473 csúcs, 10041 él

Adottak a csúcsok címkéi Irányított aciklikus gráf (Genome Ontology Database)

Kiértékelés Fokszámeloszlás Címke asszortativitási exponens Csúcsok hasonlósága Vizualizálás

Page 20: Címkézett hálózatok modellezése

Az új hálózati modell felépítése Fehérje-fehérje kölcsönhatási hálózatból vett címkék Hasonlóság a címkék, csúcsok között Csúcsok és élek száma adott → átlagos fokszám is Kis Erdős-Rényi mag Preferenciás bekötés során, az induló fokszámeloszlás megadása

Legyen éles a levágás Módosított exponenciális eloszlás

A hasonlósági és fokszám alapú bekötési valószínűség súlyát egy paraméterrel állítjuk be (δ)

Page 21: Címkézett hálózatok modellezése

A hálózatot generáló program C++ programmal Valós hálózatból bemenet

Csúcsok száma, címkéik, címkék irányított aciklikus gráfja Ezáltal adott a csúcsok közti hasonlóság

Bekötendő csúcsok véletlen sorrendbe állítása Kis Erdős-Rényi mag Csúcsok fokozatos bekötése, az induló fokszámeloszlásnak

megfelelő kapcsolattal A legyártott hálózat kiírása Több futás egy-egy δ paraméter mellet (δ 0 és 1 között változik)

Page 22: Címkézett hálózatok modellezése

Induló fokszámeloszlás

Page 23: Címkézett hálózatok modellezése

Induló fokszámeloszlás

Page 24: Címkézett hálózatok modellezése

Címkeindukált részgráfok