Upload
natan
View
40
Download
3
Embed Size (px)
DESCRIPTION
Extrakcia lokalít pomocou systému Ontea. Záverečná prezentácia semestrálnej práce. Bc.Vladimír Janov. Obsah prezentácie. Probl ém a motivácia Existujúce riešenia Postup práce pri riešení Ukážka Vyhodnotenie. Probl ém a motivácia. Problém Exktrakcia geografických údajov z bázy údajov - PowerPoint PPT Presentation
Citation preview
Záverečná prezentácia semestrálnej práce
Bc.Vladimír Janov
Extrakcia lokalít pomocou systému Ontea
Obsah prezentácie
• Problém a motivácia• Existujúce riešenia• Postup práce pri riešení• Ukážka• Vyhodnotenie
Problém a motivácia
• Problém– Exktrakcia geografických údajov z bázy údajov
• Častí miest
• Mestá
• Śtáty
• Kontinenty
– Používateľské rozhranie
• Výsledky
• Báza údajov
• Motivácia– prispenie k existujúcim softvérom v tejto doméne
– praktické aplikovanie vedomostí z predmetu
Existujúce riešenia
• GATE (http://gate.ac.uk/)– vyvinutý v roku 1995 – líder v oblasti TextMining– plugin do IDE Eclipse– open source s GUI
Výhody• Opakovateľnosť – zjednodušenie opakovania porovnateľných experimentov• Kvantitatívne vyhodnocovanie –porovnáva anotované dáta dokumentov
a generuje kvantitatívne metriky• Kolaborácia – podľa informáciách na stránke, GATE v tejto oblasti prevyšuje
priemernú softvérovú integráciu a prenositeľnosť.• Znovupoužíteľnost, nie znovuvynachádzanie
Existujúce riešenia
• ONTEA (http://ontea.sourceforge.net/)
– Platforma pre sémantickú anotáciu založenú na vzorkách (patterns)
– Vyvinutá v slovenskej akadémii vied (SAV)
– Ľahká integrácia v reálnom projekte JAVA
– Pracovanie s regulárnymi výrazmi
– Nie je potrebná žiadna inštalácia
– Zdrojový kód na sourceforge.net
Riešenie
Popis riešenia• JAVA projekt
• E-maily vo formáte Mbox (mozilla thunderbird)
• Algoritmus– Načítanie a rozparsovanie Mbox súboru na jednotlié maily
– Odfiltrovanie nepotrebných častí
– Aplikovanie ONTEA anotovacej metódy s použitím regulárnych výrazov na konkríétne telo e-mailu, poi klinutí na jeho predmet v GUI
– Výsledky sa používateľoivi zobrazia v GUI
– Po kliknutí na výsledok sa jeho výskyt zvýrazní v tele emailu
– Po dvojnásobnom kliknutí na výsledok sa daná lokalita zobrazí v GoogleMaps
Riešenie
Popis riešenia• JAVA projekt s nasledujúcimi triedami
• App
– Application.java – hlavný vstupný bod do aplikácie (main)
• Backup
– MainFrame.java – trieda obsahujúca GUI pre zobrazenie okien v aplikácii
• Data – package obsahujúci konkrétnu logiku riešenia
– MboxAnnotations.java – metódy pre samotnú anotáciu výsledkov a následné vyfiltrovanie správnej hodnoty
– MboxFileParser.java – prvotné rozparsovanie jednotlivých emailov a následné parsovanie predmetu a tela emailu
– MboxFilter.java – slúži na vyfiltrovanie nepotrebných častí emailu
– MboxMail.java – trieda na zápis predmetu a tela e-mailu
• Gui – automaticky vygenerovaný balík pomocou Eclipse
Riešenie
Práce na projekte
• Analýza problému – naštudovanie si API• Implementácia – vytvorenie súboru Mbox, návrh GUI,
implementácia logiky• Overenie a ošetrenie chýb
Ukážka
Vyhodnotenie
Množina I (množina získaných dokumentov) je rovný počtu geografických názvov v e-mailoch uložených v súbore vi_mail. E-mailov je 17 a relevantných názvov je spolu 39. Množina R (množina relevantných dokumentov) obsahuje po manuálnej analýze množiny získaných e-mailových správ 37 geografických názvov. Množina RI (množina relevantných získaných dokumentov) je 33.
Vyhodnotenie
PresnosťVýška presnosti vyhľadávania geografických názvov v e-maloch pri množine získaných dokumentov je 84,6%.
P = RI/I = 33/39 = 0,846
PokrytieVýška pokrytia pre množinu relevantných dokumentov je 89,1%.
R = RI/R = 33 / 37 = 0,891
F1 štatistikaTáto štatistika vykazuje úspešnosť 86,9%.
F1 = 2 / (1/R + 1/P) = 2 / (1,12 + 1,18) = 0,869.