Click here to load reader
Upload
avak
View
30
Download
2
Embed Size (px)
DESCRIPTION
Natural Language Identification in the World Wide Web. Peter Vojtek. Supervisor: Ing. Vladimír Grlický. Motivácia a ciele. Motivácia Ak é jazyky sa nachádzajú na internete? Koľko webstránok je v určitom jazyku a kódovaní? Ako identifikovať jazyk a kódovanie textu? Ciele - PowerPoint PPT Presentation
Citation preview
Natural Language Identification in the World Wide WebPeter Vojtek
Supervisor: Ing. Vladimír Grlický
Motivácia a ciele
• Motivácia– Aké jazyky sa nachádzajú na internete?– Koľko webstránok je v určitom jazyku a
kódovaní?– Ako identifikovať jazyk a kódovanie
textu?
• Ciele– Čo je to „slovenský internet“?– Akú metódu použiť na identifikáciu
jazyka a kódovania webstránok?
Slovenský internet• reprezentácia slovenského internetu – indexové
stránky všetkých slovenských druhostupňových domén
• stiahnutie webstránok – crawler
• extrahovanie čistého textu - parser
www.fiit.stuba.sk: sk – doména 1. rádustuba – doména 2. rádu fiit – doména 3. rádu
databáza SK-NIC: ~70 000 doménúspešne stiahnutých ~ 45 000 webstránok
Identifikácia jazyka a kódovania
• Cieľ– vytvoriť nástroj, ktorý dokáže
rozhodnúť, v akom jazyku a kódovaní je dokument napísaný
Jazyky • slovenský jazyk• český jazyk• poľský jazyk
Kódovania
• UTF-8• Windows-1250• ISO 8859-2
Metóda Shift-Codon párovania
Kroky:A. Vytvorenie/získanie korpusuB. Vytvorenie množín referenčných trigramov (profil)C. Zistenie výskytu trigramov v skúmanom texteD. Rozhodovanie na základe deliacej funkcie
A. B. C. D.
• získanie trigramov z korpusu
• zoradenie trigramov podľa početnosti výskytu
• výber n najpočetnejších trigramov
viac a menej trigram = viaviac a menej trigram = iacviac a menej trigram = ac_... ...viac a menej trigram = nej
Trigramy pre text: „viac a menej“:
Vytvorenie profilu
Určenie deliacej funkcie• Určenie hranice, ktorá oddeľuje slovenské texty
od ne-slovenských
• Existuje vždy priestor pre vytvorenie tejto hranice?
• Zaručuje deliaca funkcia oddelenie slovenských a ne-slovenských textov?
Výsledky• Úspešnosť správnej identifikácie jazyka a kódovania
zároveň
• Množstvo čistého textu nachádzajúceho sa na webstránkach
Iné možnosti
• prechod od n-gramov ku Markovovým reťazcom
• text: neskôr• trigram: nes, esk, skô, kôr• Markovov reťazec s dĺžkou prefixu 3
nes->k , esk->ô , skô ->r
p(nes->k), p(esk->ô), p(skô ->r)
Lepšie testovacie množiny• Histogram súboru získaných webstránok v neznámom
jazyku a kódovaní
• Histogram Reuters korpusu – známy jazyk a kódovanie
Úspešnosť identifikácie pomocou Markovových reťazcov
Zhrnutie
• Dosiahnuté ciele– metóda Shift-Codon párovania -
univerzálna metóda na identifikáciu jazyka a kódovania
– overenie funkčnosti na menšej množine príbuzných jazykov
– stiahnutie veľkej množiny zvolených webstránok a ich analýza
– rozsiahly korpus s podobnými charakteristikami ako získané webstránky
– vylepšená metóda pracujúca s Markovovými reťazcami