26
Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN) 1

Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

  • Upload
    beata

  • View
    27

  • Download
    5

Embed Size (px)

DESCRIPTION

Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN). A cikk körülményei. Szerzői: Panagiotis Bouros ( University of Hong Kong) , Shen Ge (University of Hong Kong) , Nikos Mamoulis ( University of Hong Kong) Esemény: VLDB Feldolgozás: Gergácz Dániel (prezentáció) , - PowerPoint PPT Presentation

Citation preview

Page 1: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

1

Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

Page 2: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

2

A cikk körülményei

Szerzői: Panagiotis Bouros (University of Hong Kong), Shen Ge (University of Hong Kong), Nikos Mamoulis (University of Hong Kong)

Esemény: VLDB

Feldolgozás: Gergácz Dániel (prezentáció) , Nagy Tamás (program), Tomcsik Bence (tanulmány)

Page 3: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

3

Probléma leírása

Adott objektumok egy gyűjteménye, amely tartalmaz térbeli és szöveges információkat

Feladat: Keressünk olyan objektumpárokat, amelyek térben közeliek és szövegesen hasonlóak.

Page 4: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

4

Alkalmazások

Személyes adatbázisok: Közösségi ajánlások Direkt marketing

Redundáns adatok: Adattömörítés és tisztítás FLICKR

POI adatbázisok: Üzleti verseny felderítése Turisztikai alkalmazások

Page 5: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

5

Térbeli távolsági összekapcsolás

Térbeli adatok indexelése: R-fa adatszerkezet MBR használata

-távolsági összekapcsolás: Adott R és S adathalmaz térbeli

adatokkal:

Page 6: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

6

Halmaz hasonlósági összekapcsolás

Adott egy D adathalmaz és egy :

Fő alkalmazása: Hasonló objektumok

keresése Szöveg egyezőség vizsgálat

Page 7: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

7

Térbeli-szöveges keresés

Nagy érdeklődés a helyadatok iránt Tárolása MBR segítségével

Szöveges és térbeli adatok keresése egyszerre alkalmazások: Google Maps, SPIRIT megvalósítás: R-fa kiterjesztésével,

invertált fájllal

Page 8: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

8

Jelölések 1.

Térbeli-szöveges objektum:

: azonosító : szélességi és hosszúsági értékek : terminálisok véges halmaza egy véges

szótár felett. Minden term tartalmazhat súlyértéket

objektum mérete: –ben lévő termek száma. Jelölése:

Page 9: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

9

Jelölések 2.

térbeli távolság: halmaz hasonlóság: Ezek a mértékek sokféleképpen

értelmezhetőek, jelentésük itt a következő:▪

(Euklideszi távolság)

▪ (Jaccard hasonlóság)

Page 10: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

10

Definíció

Adott térbeli-szöveges objektumok egy halmaza, egy térbeli távolság, és egy szöveges hasonlósági küszöb:

Page 11: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

11

Adatok ábrázolása

Page 12: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

12

Halmaz hasonlósági összekapcsolások háttere

Invertált fájlok Hasonlóság gyorsabb

felderítésére

Probléma A gyakori termeknek hosszú a postings listája nagy számú lehetséges párok

Javítása

Szűrés alkalmazása prefix szűrő

Page 13: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

13

Prefix szűrő

Rendezzük az -ben lévő kifejezéseket, hogy a legritkábbak szerepeljenek elöl.

az próba prefixe Hossza függ: , a hasonlósági függvénytől

és a -tól.

Ha és hasonló, akkor a és halmazoknak minimum egy közös eleme létezik

Page 14: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

14

ALL-PAIRS algoritmus

Prefix szűrő elve, invertált index csökkentése

Növekvő sorrendben nézi az objektumokat

Index prefix:

Maximális átfedés meghatározása:

Page 15: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

15

PPJOIN algoritmus

ALL-PAIRS kiterjesztése pozíció- és suffix szűrő

Ötlet: átfedés vizsgálatok Felülről becslés:▪ Ha ez kisebb mint a által meghatározott

érték, akkor elhagyhatjuk Alulról becslés: Hamming távolság▪ Ha ennek eleget tesz, akkor megtartjuk

Page 16: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

16

PPJ algoritmus

PPJOIN algoritmus kiegészítése térbeli távolság vizsgálata hatékonyabb, mint a pozíció- és a suffix

szűrés

Hátránya Postings listában szereplő összes elemre

elvégzi a térbeli összehasonlítást

Page 17: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

17

Dinamikus rács felosztás

Dinamikusan számolta paraméterek alapján

Két verziót vizsgálunk: PPJ-I algoritmus PPJ-C algoritmus

Page 18: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

18

PPJ-I algoritmus

Cellánként 3 intervallumot tárol

A postings lista elemei szerint növekvő

„lightweight” cella-index minden postings listához ->

Page 19: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

19

PPJ-C algoritmus

Elsősorban cell-id alapján, másodsorban méret alapján vannak rendezve

halmaz

Minden t terminálishozcellánként invertált index

Példa: a cellában

Page 20: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

20

PPJ-R algoritmus

Az objektumok indexelése R-fával

PPJ kiterjesztése

Bemenete a fa két csúcsa: rekurzív

Page 21: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

21

Csoportosítás

alapján csoportosítunk: Ha két csoport -ében nincs közös elem, akkor

figyelmen kívül hagyhatjuk

Hibái: Plusz költség a csoportosítás miatt A csoportok mérete alapján történik a

vizsgálat, nem pedig az objektumok mérete alapján

Megoldás: nézzük az objektumok méretét is

Page 22: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

22

Felhasznált adatbázisok

Valós adatok: FLICK adatbázis nagy szótár POI-USCA és POI-AU kis szótár

Mesterséges adatok: Objektumok számának változtatása Globális szótár változtatása Térbeli helyzet alapján: egységes és

klaszterizált

Page 23: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

23

Megéri csoportosítani?

FLICKR A csoportok

többségének csak egy eleme van

Page 24: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

24

Összehasonlítás az alap algoritmusokkal

Válaszidők vizsgálata

PPJ-R esetében az R-fának sok levele van

FLICKR helyzete: -nak nincs akkora

ráhatása, mint a -nak

Eredmények csökkenése

Page 25: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

25

ST-SJOIN eljárások összehasonlítása

Legjobb: PPJ-C Legrosszabb: PPJ

Nem alkalmazza a térbeli indexelő technikát, ami kihasználná az -t

Page 26: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)

26

Köszönöm a figyelmet!