Spracovanie XML dotazov založené na sekvenciách ciest

Juraj Fečanin

Štefan Ignáth

1. Úvod

2. Uloženie na základe sekvencií ciest

3. Plánovanie väzieb

4. Experimentálne výsledky

Časť Prvá

Autori

• Iona Manolescu

• Andrei Arion

• Angela Bonifati

• Andrea Pugliese

O čo ide

• Jedná sa o optimalizáciu vyhodnocovanie dotazov XQuery

• Doteraz sa využívalo relačné, alebo stromové uloženie (XML databáze) s použitím B+ stromov na indexovanie

• Takéto uloženie a indexovanie dát nazývame rozdeľovanie značiek (tag partitioning – TP)

O čo ide

• Autori navrhujú nový model uloženie DB pomocou sekvencií ciest

• Rozdeľujú obsah a štruktúru XML dokumentu podľa dátových ciest (data paths) a ukladajú to v usporiadaných sekvenciách

• Nový model je o niekoľko rádov rýchlejší ako starý

Prínos

• Popisujú logický a fyzický model uloženia dát pomocou sekvencií ciest

• Model je kompaktnejší ako TP a umožňuje efektívne načítavanie dokumentov

• Obsahuje súhrn ciest, ktorý obsahuje štrukturálne informácie v kompaktnej forme

Prínos

• Viazanie premenných je oveľa efektívnejšie ako v TP

• Model je dobre integrovateľný s optimalizačnými technikami XQuery vyvinutými pre model TP

• Model poskytuje detailné štruktúrne informácie pre optimalizáciu

Vyhodnocovanie dotazov XQuery

Viazanie premenných – variable bindings – základ vyhodnocovania dotazov XQuery.Na premennú sa viažu elementy nájdené nasledovaním cesty definujúcej premennú:• bez duplikátov – v zmysle ID elementu• v poradí v akom sa nachádzajú v dokumente

for $i in //asia//item, $d in $i/description where $i//keyword=“romantic” return <gift> <name> {$i/name} </name> {$d//emph} </gift>

Postup vyhodnocovania:

1. Viazanie všetkých premenných a poddotazov v return klauzule

2. Kombinácia viazaní pomocou spojení3. Serializácia XML výsledkov, tak ako to

podmieňuje return klauzula. Kým fázy 1. a 2. manipulujú iba s ID elementov, táto fáza manipuluje s celými elementmi

Spojenia v časti Combine párujú viazania na základe:• hodnotových predikátov (v príklade sa nenachádza)• štruktúrnej príbuznosti ID elementov obsiahnutých vo viazaní – štrukturálne spojenie

Spojenia v príklade:• Štruktúrne spojenie $i a $d viazaní (structural

join)• Štruktúrne polospojenie $i a $k viazaní –

pretože viac odpovedajúcich kľúčových slov musí produkovať iba jeden výsledok (structural semijoin)

• Štruktúrne vonkajšie spojenie pripája name a emph k $i a $d viazaniam, pretože výsledok musí existovať aj pre elementy bez násladníka name a/alebo emph

Časť Druhá

Uloženie na základe sekvencií ciest

(Path sequence-based storage)

Logický model uloženia

Vlastnosti:

•oddeľuje obsah dokumentu od jeho štruktúry

• ukladá každú skupinu podobných prvkov v poradí v akom sa nachádzajú v dokumente

Ďalej sa pozrieme na jednotlivé časti tohto logického modelu.

Prvá štruktúra obsahuje kompaktnú reprezentáciu stromovej štruktúry XML dokumentu. Každému elementu je priradený unikátny perzistentný identifikátor. Využíva sa [pre,post]. •pre – pozičné číslo otváracieho tagu elementu•post – pozičné číslo uzatváracieho tagu elementu(element e1 je predchodcom elementu e2 iba ak e1.pre<e2.pre a e1.post>e2.post)

•Identifikátory rozdeľujeme podľa dátových ciest do ktorých elementy patria.

•Každá časť je sekvenciou identifikátorov, usporiadaná podľa poľa pre – teda v poradí ako sa nachádzajú v dokumente.

•Všetky ID v sekvencii ciest majú rovnakú hĺbku v strome dokumentu – hĺbka je uložená pre každú sekvenciu

Niekoľko sekvencií ciest z predchádzajúceho príkladu, pre cesty:

/site/people

Logický model uloženia - Kontajner

•Druhá štruktúra ukladá obsah XML elementov a hodnôt atribútov•Hodnoty priradzujeme najbližším elementom – teda identifikátorom elementov (pre hodnotám ID)•Ukladáme v sekvenciách párov [pre,post] usporiadaných podľa pre•Takúto sekvenciu nazývame kontajner

Logický model uloženia - Kontajner

• Obsahuje hodnoty typu string, integer ale double

Niekoľko príkladov kontajnerov:

/site/people/person/@id

/site/people/person/name/#text

Logický model uloženia – Súhrn ciest

Predchádzajúce dve štruktúry môžu reprezentovať XML dokument bez strát. Pridáme tretiu indexujúcu štruktúru významnú pre spracovanie dotazov. Súhrn ciest XML dokumentu je strom:- Vnútorné uzly korešpondujú s XML elementmi- Listy korešpondujú s hodnotami (textom alebo atribútmi)

• Pre každú jednoduchú cestu /l1/l2/.../l3

odpovedajúcu jednému alebo viacerým uzlom v XML dokumente existuje práve jeden uzol dosiahnutý tou istou cestou v súhrne ciest• Každému uzlu x v súhrne ciest odpovedá unikátne číslo cesty, charakterizujúce uzol a aj cestu z koreňa súhrnu k uzlu x

• Každá cestou orientovaná ID sekvencia je unikátne asociovaná k číslu cesty

• Každý kontajner je asociovaný k páru:– číslo cesty– @attrName pre atribút alebo #text pre text

V nasledujúcom príklade súhrnu ciest sú čísla ciest znázornené veľkým fontom pri uzloch.

Súhrn ciest• Je vždy stromom• Nezoskupuje uzly,

informácie ukladá oddelene

Dataguide*• Môže tvoriť obecný

graf• Zoskupuje uzly s

rovnakým tagov

* viz: Goldman R., Widon J.,”Dataguides: Enabling Query Formulation and Optimization in Semistructured Databases”, VLDB, Athens, Greecem 1997

Súhrn obsahuje stručné štatistické údaje o danom uzle. Nech x je uzol v súhrne na ceste končiacej tagom t and nech y je potomkom x:• Nx počet elementov nachádzajúcich sa na ceste x (veľkosť ID sekvencie korešpondujúcej x)

• mx,y,Mx,y: minimálny, resp. maximálny počet y potomkov XML elementu na ceste x

Označenie pre dokument:• N – veľkosť• h – hĺbka

• NPS – počet uzlov v jeho súhrne ciest

Súhrn ciest budeme udržiavať v pamäti, keďže jeho veľkosť je vzhľadom na veľkosť dokumentu pomerne malá.

• Sekvencie identifikátorov, kontajnery a súhrny ciest sú všetkým čo o dokumente uchovávame. K týmto údajom sa pridávajú indexy.

• Načítame XML dokument jedným priechodom s použitím parseru riadeného udalosťami. Algoritmus je lineárny s N, používajúci O(h+NPS) pamäte pre zásobník a súhrn ciest.

Fyzický model uloženia

Základom logického modelu je usporiadanie v ID sekvenciách a v kontajneroch, preto fyzický model musí podporovať usporiadanie prvkov.

Ďalej budem uvažovať o:

•B+ stromoch

•Perzistentných sekvenciách

Fyzický model uloženia – B+ stromy

O využití B+ stromoch sa uvažovalo v mnohých prácach zameraných na túto tematiku.

Výhody:

• Robustnosť, podpora updatov

Nevýhody:

• Nafúknutosť vzhľadom na množstvo ID indexov

Fyzický model uloženia – Perzistentné sekvencie

Výhody:• Extrémna kompaktnosť, vedúca k

zmenšeniu spotreby pamäte• Výkon v aplikáciách kde záleží na poradíNevýhody:• Zlé správanie v prítomnosti updatov

Ďalej budeme používať ako fyzický model práve perzistentné sekvencie

Príklad fyzického uloženia ID sekvencií

Prvky v týchto sekvenciách majú konštantnú dĺžku, rovnú veľkosti ID.

Príklad obsahuje sekvencie z kontajnerov

Kontajnery sú rôznej dĺžky (pre hodnoty dát), preto použijeme sekvencie pohyblivej dĺžky.

Súhrn ciest ukladáme ako sekvenciu prvkov premenlivej dĺžky. Každý uzol obsahuje jeden prvok obsahujúci:• Číslo uzlu• Číslo rodiča uzlu• Čísla potomkov uzlu• Skôr popísané štatistické údajeMiesto potrebné pre súhrn ciest je lineárne s NPS.

Príklad fyzického uloženia súhrnu ciest

Časť Tretia

Plánovanie väzieb

Notácia

• lineárna cesta (linear path expression – lpe )(vi?) (/|//) l1 (/|//) l2 …(/|//)lk

– li – je element alebo *– k >= 0 (dĺžka cesty)– vi – nepovinná dotazovacia premenná

• jednoduchá cesta l1/l2/.../lk• dve jednoduché cesty sú príbuzné, ak uzol v

súhrne ciest odpovedajúci jednej z nich je predkom druhého uzlu

• uzly prislúchajúce ceste P sú uzly získané vyhodnotením cesty voči súhrnu ciest

• označíme op[i] i-ty stĺpec vo výstupe op

Viazanie jednej premennej

• rozdeľovanie ciest umožňuje priamy prístup k prislúchajúcim uzlom

• stačí prehľadať korešpondujúce ID sekvencie

• IDScan ( x )• vracia ID-čka zo sekvencií

asociovaných s x• vyplní políčko hĺbka podľa

dĺžky jednoduchej cesty• výstup je zoradený a bez

opakovania

for $x in /site/people/person/name

Komplexnejšie cesty

• vytvoríme množinu uzlov zo súhrnu ciest prislúchajúce //parlist//text

• prehľadáme korešpondujúce ID sekvencie a súčasne ich “zlejeme” do jednej sekvencie

• výsledné väzby sú v poradí ako v dokumente a bez opakovania

• nie je použité žiadne spojenie

for $x in //parlist//text

Zložitosť

• xP – počet uzlov v súhrne ciest prislúchajúcich ceste P• NP – počet väzieb pre P• b – blokovací faktor• I/O: O ( NP/b + xP )

– každá ID sekvencia je fyzicky “klastrovaná” , ale nie všetkých xP sekvencií je uložených spoločne

• CPU: O ( NP * log ( xP ) )– spojenie xP usporiadaných sekvencií

• Pamäť: O (NPS + xP )– uloženie súhrnu ciest a štruktúry pre spojenie sekvencií (strom s

xP uzlami)

Hľadanie vyhovujúcich uzlov 1

• prechádzame súhrn ciest od koreňa k listom

• priraďujeme elementy cesty zľava doprava

• uzly vyhovujúce poslednej položke cesty vložíme do výslednej množiny

• O ( NPS )

Hľadanie vyhovujúcich uzlov 2

• začneme v uzle 1 a pokúsime sa nájsť vyhovujúci uzol pre element asia

• koreň nevyhovuje a tak hľadanie predáme do synovských uzlov, ktoré ho predajú ďalej

• vo vetve regions/asia element asia vyhovuje a hľadanie //item sa predá synovským uzlom

//asia//item

Väzba s jednoduchými predikátmi

• v tomto prípade potrebujeme pristúpiť ku kontajneru pre person/@id

• ContScan ( x )• x je cesta ( napr. 3/@id )• vracia zoradené dvojice [pre,hodnota] z kontajneru

• ak je na kontajnery vytvorený index, použijeme IdxAccess

• spojením s IDScan ( ... ) získame trojice [pre,post,depth]

for $x in //people//person[@id = “person0”]

Obrázok

Viazanie viacerých premenných 1

• využijeme zovšeobecnený stromový vzor ( generalized tree pattern )– jednoduché čiary -> /– dvojité čiary -> //– čiarkované -> ľavé vonkajšie

spojenie– * -> ľavé polospojenie– $1 a $2 – premenné pre

výstup

for $i //asia//item, $d in $i/description where $i//keyword=“romantic”

return <gift> <name> {$i/name}</name>{$d//emph} </gift>

Viazanie viacerých premenných 2

• dva kroky:1. Vypočítame minimálne množiny, ktoré

musia byť prehľadané.– analyzujeme vzťahy medzi premennými– hľadáme nepotrebné premenné a nové vzťahy

medzi premennými

2. Skonštruujeme plán pre viazanie premenných– využijeme znalosti z predchádzajúceho kroku

Prvý krok

• pre každú premennú vytvoríme množinu ciest zo súhrnu ciest, s ktorými by prípadne mohla byť zviazaná

• nech u,v sú premenné – u je rodičom v v stromovom vzore

• su,sv – príslušné množiny možných ciest

• su zistíme súčasným priechodom súhrnu ciest a stromového vzoru

Príklad

si = {/site/regions/asia/item}si sd = {/site/regions/asia/item/description}si sk = {28}sd + si s1 = {18} a s2 = {22,26}

Transformácia polospojení 1• pre každú hranu (v je rodičovská premenná, u je synovská premenná) a

pár príbuzných ciest xsu, ysv vypočítame maximálny faktor cesty Mpfx,y • je to maximálne Mxi,yi

pri priechode z uzlu x do uzlu y v súhrne ciest• napr. pre hranu medzi $i a $2 vypočítame Mpf17,22 a Mpf17,26

• Mpf17,22 je najväčšie spomedzi M17,19, M19,20, M20,21 a M21,22

• ak Mpfx,y ≤ 1 a hrana medzi u a v je polospojenie, transformujeme ju na spojenie (obe operacie sú rovnaké)

Transformácia polospojení 2

• ak Mpf16,28 ≤ 1 vyhodnotenie výrazu môže začať prístupom k $k, nasledovaný spojením s $i

Eliminácia vetvy so spojením• vypočítame minimálny faktor cesty mpfx,y pre každý príbuzný pár

ciest x,y• je to minimálne mxi,yi

na ceste z x do y• ak je hrana medzi u a v spojenie, mpfx,y = 1 a Mpfx,y = 1 pre všetky

príbuzné cesty x,y a nemáme priamy predikát pre v, potom môžme eliminovať v zo stromového vzoru

• všetkých potomkov v “prilepíme” priamo k u• napr. všetky ázijské položky majú presne jeden popis, preto je

premenná $d nepotrebná

Prerezávanie ciest

• využijeme každú množinu sv k odstráneniu nepotrebných ciest z su

• u je rodič v v stromovom vzore

sp={20,23} sk={26}

• zo súhrnu ciest vieme, že 26 je potomok 20, ale nie 23eliminujeme nepotrebnú cestu 23 z sp

• použiteľné iba pre plné hrany• môžme zistiť, že dotaz nemá odpoveď

for $p in //parlist, $k in $p//text return $k

Algoritmustraverse ( GTPNodes u, x,

PSNodes pu, px, pv )foreach GTPNode vi child of u

nextX=x; nextPX=pxif (the tag of pv matches the tag of vi)

if (vi is a variable node)mark(x,vi,px,pv)upd(mpfpx,pv,Mpfpx,pv,mpu,pv,Mpu,pv)nextX= vi; nextPX=pv

foreach PSNode pw child of pvtraverse(vi,nextX,pv,nextPX,pw)

if (the edge u-vi is ancestor-descendant)foreach PSNode pw child of pv

traverse (u,x,pv,px,pw)

Uzol v súhrne ciest.

Rodičovský uzol

Posledný uzol zo stromového vzoru, ktorý

vyhovuje predkovi pv

Posledný uzol s premennou zo

stromového vzoru, ktorý vyhovuje predkovi pv

Cesta, ku ktorej prísluší x

Procedúra sa snaží nájsť potomka u, ktorému

vyhovuje pv.

Pre každého takého potomka skontrolujeme,

či tagy súhlasia.

Ak je vi navyše premenná,

označíme si cestu, ktorú sme pre ňu našli a že

rodičovská premenná x vyhovuje ceste px.

Vypočítame faktory cesty za pomoci m a M

uložených pre pu a pv.

Ďalej pokračujeme v hľadaní vyhovujúcej cesty. Pokúsime sa

priradiť deti vi k deťom pv pomocou rekurzívneho

volania

Ak hrana medzi u a vi je predok-potomok, tak

prechádzame deti pv s rovnakými parametrami

ako pre pv.

Algoritmus

• výstupom je zoznam ciest pre každú premennú

Algoritmus$x in //regions, $y in $x/*, $z in $y//item, $t in $z//emph

Druhý krok

• vytvorenie plánu pre viazanie premenných– využijeme množiny získané v predchádzajúcom kroku

IDScan ( 17 ) pre $i

Join ( IDScan ( 28 ), Filter ( ContScan ( 28/#text ) ) pre $k

IDScan ( 19 ) pre $1

Merge ( IDScan ( 22 ), IDScan ( 26 ) ) pre $2

Príklad

IDScan ( 17 ) pre $i

Join ( IDScan ( 28 ), Filter ( ContScan ( 28/#text ) ) pre $k

IDScan ( 18 ) pre $1

Merge ( IDScan ( 22 ), IDScan ( 26 ) ) pre $2

Časť štvrtá

Kombinovanie plánov viazania premenných

• Plány viazania premenných sa kombinujú zdola hore cez spojenia a štruktúrne spojenia• Sústreďujeme sa na využitie sekvenčné modelu ciest pri optimalizáciu spojení• Je potrebné implementovať spojenia tak aby zachovávali poradie prvkom v dokumentoch – nie vždy je to možné, preto je potrebné kontrolovať niektoré podmienky

Kombinovanie plánov viazania premenných

• Na implentovanie spojení sú použité algoritmy StackTreeDesc a StackTreeAnc popísané v Al-Khalifa S., Jagadish H., Patel J., Wu Y., Koudas N., Srivastava D.: “Structural Joins: A Primitive for Efficient XML Query Pattern Matching”, ICDE, 2002

• V prípade nesplnenia daných podmienok, je potrebné po spojení dokument zotriediť

Časť piata

Experimentálne výsledky

Prostredie

• použité bolo– DELL D800 laptop

• Pentium IV 1,4 GHz• 1Gb RAM• RedHat Linux 9.0

– dokumenty• XMark 118Mb• DBLP 133Mb• SwissProt 114Mb

Experimentálne výsledky 1

Spracovanie XML dotazov založené na sekvenciách ciest

Documents

Analógové a digitálne spracovanie signálov 1 (ADSS1)

Rastliny rumovísk a okrajov ciest

Marek Doru šinec Číslicové spracovanie obrazu

Brachyterapia žlčových ciest z pohľadu fyzika

Neurónové siete založené na “echo” stavoch

Spracovanie podrobnej analýzy základných ustanovení pre

Sieť diaľnic a rýchlostných ciest na Slovensku

elektrické filtry Jiří Petržela filtry založené na jiných … principy.pdfelektrické filtry filtry založené na jiných fyzikálních principech povrchová akustická vlna

Obnova ciest I. triedy podla okresov 2011-2012

spracovanie videa

Centrum zhodnocovania sedimentov založené na …šradná tabuľa/2019/EUT-2019_01_29-01-P01.pdfCentrum zhodnocovania sedimentov založené na ekologických princípoch 5 JK SERVIS

Pece na tepelné spracovanie

Štatistické spracovanie a vyhodnotenie dát

Príručka na štatistické spracovanie verejno-súkromných partnerstiev (PPP) · 2018. 10. 29. · 2 September 2016 — Príručka na štatistické spracovanie verejno-súkromných

pre environmentálnu výchovu · Rastliny rumovísk a okrajov ciest rastliny na okrajoch ciest obsahujú splodiny z výfukov áut – nezbierať a nekonzumovať Liečivé, jedovaté

Program modernizácie ciest I. triedy

Editace již založené osoby v NRZP (národní registr

Nová technológia na spracovanie kuchynského biologického odpadu

Spracovanie signálov zo senzorov

Rastliny rumovísk a okrajov ciest - EduPageV„žV • rdÆrv. 000 Rastliny rumovísk a okrajov ciest . Created Date: 10/8/2017 7:52:00 PM