11
Záverečná prezentácia semestrálnej práce Bc.Vladimír Janov Extrakcia lokalít pomocou systému Ontea

Záverečná prezentácia semestrálnej práce

  • Upload
    natan

  • View
    40

  • Download
    3

Embed Size (px)

DESCRIPTION

Extrakcia lokalít pomocou systému Ontea. Záverečná prezentácia semestrálnej práce. Bc.Vladimír Janov. Obsah prezentácie. Probl ém a motivácia Existujúce riešenia Postup práce pri riešení Ukážka Vyhodnotenie. Probl ém a motivácia. Problém Exktrakcia geografických údajov z bázy údajov - PowerPoint PPT Presentation

Citation preview

Page 1: Záverečná prezentácia semestrálnej práce

Záverečná prezentácia semestrálnej práce

Bc.Vladimír Janov

Extrakcia lokalít pomocou systému Ontea

Page 2: Záverečná prezentácia semestrálnej práce

Obsah prezentácie

• Problém a motivácia• Existujúce riešenia• Postup práce pri riešení• Ukážka• Vyhodnotenie

Page 3: Záverečná prezentácia semestrálnej práce

Problém a motivácia

• Problém– Exktrakcia geografických údajov z bázy údajov

• Častí miest

• Mestá

• Śtáty

• Kontinenty

– Používateľské rozhranie

• Výsledky

• Báza údajov

• Motivácia– prispenie k existujúcim softvérom v tejto doméne

– praktické aplikovanie vedomostí z predmetu

Page 4: Záverečná prezentácia semestrálnej práce

Existujúce riešenia

• GATE (http://gate.ac.uk/)– vyvinutý v roku 1995 – líder v oblasti TextMining– plugin do IDE Eclipse– open source s GUI

Výhody• Opakovateľnosť – zjednodušenie opakovania porovnateľných experimentov• Kvantitatívne vyhodnocovanie –porovnáva anotované dáta dokumentov

a generuje kvantitatívne metriky• Kolaborácia – podľa informáciách na stránke, GATE v tejto oblasti prevyšuje

priemernú softvérovú integráciu a prenositeľnosť.• Znovupoužíteľnost, nie znovuvynachádzanie

Page 5: Záverečná prezentácia semestrálnej práce

Existujúce riešenia

• ONTEA (http://ontea.sourceforge.net/)

– Platforma pre sémantickú anotáciu založenú na vzorkách (patterns)

– Vyvinutá v slovenskej akadémii vied (SAV)

– Ľahká integrácia v reálnom projekte JAVA

– Pracovanie s regulárnymi výrazmi

– Nie je potrebná žiadna inštalácia

– Zdrojový kód na sourceforge.net

Page 6: Záverečná prezentácia semestrálnej práce

Riešenie

Popis riešenia• JAVA projekt

• E-maily vo formáte Mbox (mozilla thunderbird)

• Algoritmus– Načítanie a rozparsovanie Mbox súboru na jednotlié maily

– Odfiltrovanie nepotrebných častí

– Aplikovanie ONTEA anotovacej metódy s použitím regulárnych výrazov na konkríétne telo e-mailu, poi klinutí na jeho predmet v GUI

– Výsledky sa používateľoivi zobrazia v GUI

– Po kliknutí na výsledok sa jeho výskyt zvýrazní v tele emailu

– Po dvojnásobnom kliknutí na výsledok sa daná lokalita zobrazí v GoogleMaps

Page 7: Záverečná prezentácia semestrálnej práce

Riešenie

Popis riešenia• JAVA projekt s nasledujúcimi triedami

• App

–  Application.java – hlavný vstupný bod do aplikácie (main)

• Backup

–  MainFrame.java – trieda obsahujúca GUI pre zobrazenie okien v aplikácii

• Data – package obsahujúci konkrétnu logiku riešenia

–  MboxAnnotations.java – metódy pre samotnú anotáciu výsledkov a následné vyfiltrovanie správnej hodnoty

–  MboxFileParser.java – prvotné rozparsovanie jednotlivých emailov a následné parsovanie predmetu a tela emailu

–  MboxFilter.java – slúži na vyfiltrovanie nepotrebných častí emailu

–  MboxMail.java – trieda na zápis predmetu a tela e-mailu

• Gui – automaticky vygenerovaný balík pomocou Eclipse

Page 8: Záverečná prezentácia semestrálnej práce

Riešenie

Práce na projekte

• Analýza problému – naštudovanie si API• Implementácia – vytvorenie súboru Mbox, návrh GUI,

implementácia logiky• Overenie a ošetrenie chýb

Page 9: Záverečná prezentácia semestrálnej práce

Ukážka

Page 10: Záverečná prezentácia semestrálnej práce

Vyhodnotenie

Množina I (množina získaných dokumentov) je rovný počtu geografických názvov v e-mailoch uložených v súbore vi_mail. E-mailov je 17 a relevantných názvov je spolu 39. Množina R (množina relevantných dokumentov) obsahuje po manuálnej analýze množiny získaných e-mailových správ 37 geografických názvov. Množina RI (množina relevantných získaných dokumentov) je 33.

Page 11: Záverečná prezentácia semestrálnej práce

Vyhodnotenie

PresnosťVýška presnosti vyhľadávania geografických názvov v e-maloch pri množine získaných dokumentov je 84,6%.

P = RI/I = 33/39 = 0,846

PokrytieVýška pokrytia pre množinu relevantných dokumentov je 89,1%.

R = RI/R = 33 / 37 = 0,891

F1 štatistikaTáto štatistika vykazuje úspešnosť 86,9%.

F1 = 2 / (1/R + 1/P) = 2 / (1,12 + 1,18) = 0,869.