Paraleln é vyhľadávanie nad viacrozmernými indexmi

Paralelné vyhľadávanie nad viacrozmernými indexmi.

Martin Orendáč RNDr. Peter Gurský, PhD.

Ciele práce

Naimplementovať a porovnať štruktúry “naivného” distribuovaného R* stromu, MC R* stromu a distribuovaného R* stromu.

Obsah prezentácie

• Definícia R stromu

• Priblíženie problému paralelizácie

• Popis troch distribuovaných štruktúr uvedených v cieľoch práce.

R strom - Úvod

je stromová štruktúra na indexovanie viacrozmerných dát na základe ich priestorovej pozície. Pod k-rozmerným dátovým súborom si môžeme predstaviť ľubovoľný objekt z k-rozmerného priestoru s atribútmi. My však budeme pracovať len s obdĺžnikmi a ich viacrozmernými variantmi.

R strom - Definícia• Každý uzol stromu je identifikovaný

dvojicou <MBR, I>, kde I je číslo stránky na disku na ktorej sa nachádza a MBR ohraničujúci obdĺžnik.

• Dátové objekty sú uložené v listoch R stromu (MBR listu ohraničuje všetky MBR objektov v liste). Vnútorné uzly obsahujú zoznam <MBR,I> svojich potomkov.

• Každý uzol má svoju kapacitu, koľko najviac potomkov/objektov môže mať.

R strom - Príklad

R strom - Vyhľadávanie

Prehľadávanie takéhoto stromu prebieha od koreňa smerom nadol. Majme obdĺžnik S, chceme nájsť všetky dátové súbory ktorých obdĺžnik ohraničuje S. Pre každý uzol (začínajúc koreňom), ktorý nie je listom, prehľadáme množinu MBR jeho potomkov a zavoláme takéto vyhľadávanie na všetkých potomkoch, ktorých MBR ohraničuje S. Pre každý listový uzol opäť prehľadáme množinu obdĺžnikov indexovaných dát a vrátime všetky dátové súbory, ktorých obdĺžniky ohraničujú S.

R strom a R* strom

V našej práci používame R* strom, ktorý je vylepšením R stromu, lýšia sa v algoritme vkladania dát. Keďže však pracujeme so statickou databázou, tj operácia vkladania nie je povolená, nemá zmysel tento rozdiel popisovať.

Paralelné vyhľadávanie nad R stromami - Motivácia

Predstavme si obrovskú databázu (NASA v roku 1996 pracovala s 1 TB nových dát denne; geografické databázy), ktorú chce prehľadávať veľa ľuďí. Kde klasické vyhľadávanie nestačí, je potrebné rozmýšľať nad spôsobmi urýchlenia. Jedným z týchto spôsobov je paralelizácia.

Paralelné vyhľadávanie nad R stromami - Príklad využitia, Mx R stromy

• Prvým prístupom s využitím paralelizácie v problematike bolo využitie tzv. multiplexed (Mx) R stromov.

• Použiteľný na architektúre s jedným procesorom a viacerými diskmi.

• Uzol Mx R stromu je uzol identifikovaný trojicou <MBR, I, diskId>, kde I je číslo stránky a diskId je id disku na ktorý sa máme pozrieť.

Paralelné vyhľadávanie nad R stromami - Príklad využitia, MX R stromy

Filozofia : I/O operácie sa rozdelia medzi viaceré disky, na ktorých sa spracúvajú paralelne.

Nato, aby bol tento prístup efektívny, je potrebné aktivovať vždy keď uzol chce pristúpiť k potomkom čím viac diskov. V Mx R strome je cieľom rozdistribuovať podobné uzly stromu na rôzne disky.

Metóda Proximity Index.

Paralelné vyhľadávanie nad R stromami - Distribuované prostredie

• Majme distribuovaný systém, chceme rozdistribuovať uzly globálneho R stromu na jednotlivé stanice. Metóda Proximity Index by svojim rozdelením uzlov na jednotlivé stroje spôsobila zahltenie siete - neberie v úvahu komunikačný čas.

Pre minimalizáciu počtu zaslaných správ sa použije jedna stanica ako Master Server, ktorá bude rozhodovať ktorým staniciam je potrebné preposlať dopyt. Zvyšné stanice sa stanú úložnými serverami, budú spravovať listovú vrstvu globálneho stromu.

Stále však ostáva problémom ako efektívne rozmiestniť dáta, kedže musíme brať v úvahu komunikačný čas aj čas potrebný na lokálne spracovanie dopytu.

Popis štruktúr - Naivný distribuovaný R * strom

Majme vstupnú postupnosť dát ktoré chceme indexovať, a k úložných servrov. Dátové objekty pridelíme na jednotlivé stanice metódou Round Robin, teda i tý objekt pridelíme na (i mod k) tu stanicu. Úložné servre si potom z pridelených dát vytvoria lokálne R* stromy.

Pri prehľadávaní potom master server osloví všetky úložné servre a vráti zjednotenie ich výsledkov.

Popis štruktúr - MC R* Strom

Nevýhoda “naivného” stromu - aj malý dopyt osloví zbytočne veľa staníc. Opak - ak by master oslovil aj väčšími dopytmi len jednu stanicu, vôbec by sme nevyužili výhody paralelizmu.

“Dobré” rozdelenie : na stanice distribuujeme skupiny podobných dát, pričom podobné skupiny distribuujeme na odlišné stroje. (Myšlienka Mx R stromu)

Optimálny počet dát na skupinu je rovný kapacite listu globálneho stromu.

Na distribuovaný R-strom sa môžeme pozerať ako na dvoj-úrovňový R-strom. Na Master Servri sa vytvorí lokálny strom, ktorý uchováva všetky vnútorné uzly globálneho stromu. Listové uzly globálneho stromu sú na master servery identifikované dvojicou <MBR, siteId>, kde siteId je identifikátor stanice, na ktorej sa listový uzol nachádza. Tieto listy sú rozdistribuované po ostatných staniciach v sieti, na ktorých sú následne vytvorené lokálne R-stromy.

• Obrazok

Popis štruktúr - MC R* Strom, vytvorenie MC R* Stromu

Aby sme mohli dáta vhodne rozdeliť medzi stanice, potrebujeme ich najskôr zotriediť podľa podobnosti, na čo sa použije algoritmus STR. Následne môžeme postupnosť rozdeliť na úseky o dĺžke M, kde M je kapacita listu, a metódou Round Robin prideliť a rozposlať na jednotlivé stanice.

Popis štruktúr - MC R* Strom, STR algoritmus

Majme k-dimenziálnu postupnosť n (hyper) obdĺžnikov. Túto postupnosť utriedime podľa prvej súradnice ich stredu. Nech P = n/M , zaokrúhlené nahor. Postupnosť rozdelíme na S = P1/k úsekov. Rekurzívne usporiadame každý z úsekov podľa zvyšných k-1 súradníc.

Popis štruktúr - MC R* Strom, STR Packing

Pomocou STR Packing algoritmu vieme dosiahnuť vytvorenie stromu so skoro 100% naplnením uzlov. Princíp : máme vytvorenú vrstvu potomkov a poznáme kapacitu jedného uzla, z toho vytvoríme vrstvu rodičov. Rekurzívne opakujeme kým vrstva rodičov neobsahuje len jeden uzol, ktorý sa stane koreňom stromu.

• Na master servri vytvárame lokálny strom pomocou STR packing, pričom začíname od najnižšej vrstvy, ktorou sú ukazovatele na jednotlivé stanice.

• Na úložných servroch vytvárame lokálne stromy už priamo z pridelených dát.

Popis štruktúr - Distribuovaný R* Strom

• Paralelizmus možno využiť nielen na urýchlenie dopytu, ale aj na rozdelenie záťaže medzi jednotlivé stanice. Preto sa v tomto strome budeme snažiť prideliť podobné dáta na rovnaké stanice. (Snaha smerovať podobné dopyty na podobné stanice, predpoklad že budem dostávať rôzne dopyty)

• Podobný ako MC R*, rozdiel v počiatočnom prideľovaní na stanice - počiatočnú utriedenú postupnosť delíme na n úsekov, kde n je počet staníc.

Popis štruktúr - Distribuovaný R* Strom

• Takýto prístup má výhodu oproti MC R* stromu - strom na master servri môžeme znížiť, čím sa znižuje riziko že tento server bude “bottle neck”. Znižovanie sa vykoná už počas STR packingu - pokiaľ viem že podstrom nejakého uzla obsahuje len ukazovatele na jednu stanicu, môžem ho nahradiť ukazovateľom.

Stav práce

Priestor pre otázky

Paraleln é vyhľadávanie nad viacrozmernými indexmi

Documents

ZÁKLADNÁ ŠKOLA Ľ. PODJAVORINSKEJ 1, KOŠICE · porozumenie informačného a literárneho textu: • vyhľadávanie informácií, • vyvodzovanie záverov, • integrácia a interpretácia

Web of Science – vyhľadávanie v najvplyvnejšej vedeckej literatúre

ZŠ T.G.Masaryka Hodkovice nad MohelkouZákladní školy T.G.M asaryka v Základní školy T.G.M asaryka v HodHodHodkovicích nad M ohelkoukovicích nad M ohelkoukovicích nad M ohelkou

Open Data pre vyhľadávanie informácií a jazykové technológie

Excel základy Excel základy Kurz je určený pre začiatočníkov - účastníkov, ... filtrovanie údajov, filtrovanie na základe podmienky, vyhľadávanie Grafy tvorba grafov

Rýchle vyhľadávanie partnera - rpvs

Výročná správa - · PDF filevzdelávacie programy pre nezamestnaných uchádzačov na trhu práce ... Rehabilitácia a reedukácia Prevencia, depistáţ, vyhľadávanie

TolerantkmechanismsktojkO ... · PDH PEPC PCK NADH NAD + ALDH NADH NAD+ NADH NAD+ NAD+ GABA GAD NH₄+ NH₄ CO₂ semialdehyde SSADH NADH NAD+ γ-hydroxybutyrate GHBDH GABA-T PK

3 NAD rd Summit TALES ABOUT NAD+...For More Information on NAD+ Biology and Aging Easy to Read Blogs on NAD+Part I – NAD+ de novo synthesis, NAD+ salvage pathway, the 7 Sirtuins,

Erasmus - Eurofondy 2020 · eTwinning = portál na vyhľadávanie partnerov 28.6.2019 11. Strategické partnerstvá - financovanie Grant = paušály a škály jednotkových nákladov

Creating NAD (National Academic Depository) ID [NAD ID

Sémantické vyhľadávanie A sémantick É sietE

Manažment znalostí (3)people.tuke.sk/jan.paralic/prezentacie/MZ/MZ3.pdf · Manažment znalostí (3) OBSAH PREDNÁŠKY • Ďalšie (alternatívne) modely pre vyhľadávanie informácií

Vyhľadávanie najbližších objektov nad viacrozmernými indexmi

Získavanie a vyhľadávanie zamestnancov

Textové Databázy Ján GENČI PDT. 2 Obsah Literatúra Terminológia Vymedzenie pojmu textové databázy Typy dotazov Fulltextové vyhľadávanie Lingvistické korpusy

Kralupy nad Vltavou Roztoky u Prahy Roudnice nad Labem … · 2017. 4. 25. · Brandýs nad Labem – Stará Boleslav Kralupy nad Vltavou Neratovice Roztoky u Prahy Roudnice nad Labem

Sretan Uskrs!franjevci-split.hr/pdf/sinj_gospa_sinjska_uskrs_16.pdf · nad mržnjom, dobro nad zlom, istina nad laži, milosrđe nad očajem, život nad smrću. To je vrhunac evanđelja,

VYHĽADÁVANIE CITOVANÝCh referencii

Vyhľadávanie najbližších a najlepších objektov nad paralelnými viacrozmernými indexmi