Natural Language Identification in the World Wide Web

Natural Language Identification in the World Wide WebPeter Vojtek

Supervisor: Ing. Vladimír Grlický

Motivácia a ciele

• Motivácia– Aké jazyky sa nachádzajú na internete?– Koľko webstránok je v určitom jazyku a

kódovaní?– Ako identifikovať jazyk a kódovanie

textu?

• Ciele– Čo je to „slovenský internet“?– Akú metódu použiť na identifikáciu

jazyka a kódovania webstránok?

Slovenský internet• reprezentácia slovenského internetu – indexové

stránky všetkých slovenských druhostupňových domén

• stiahnutie webstránok – crawler

• extrahovanie čistého textu - parser

www.fiit.stuba.sk: sk – doména 1. rádustuba – doména 2. rádu fiit – doména 3. rádu

databáza SK-NIC: ~70 000 doménúspešne stiahnutých ~ 45 000 webstránok

Identifikácia jazyka a kódovania

• Cieľ– vytvoriť nástroj, ktorý dokáže

rozhodnúť, v akom jazyku a kódovaní je dokument napísaný

Jazyky • slovenský jazyk• český jazyk• poľský jazyk

Kódovania

• UTF-8• Windows-1250• ISO 8859-2

Metóda Shift-Codon párovania

Kroky:A. Vytvorenie/získanie korpusuB. Vytvorenie množín referenčných trigramov (profil)C. Zistenie výskytu trigramov v skúmanom texteD. Rozhodovanie na základe deliacej funkcie

A. B. C. D.

• získanie trigramov z korpusu

• zoradenie trigramov podľa početnosti výskytu

• výber n najpočetnejších trigramov

viac a menej trigram = viaviac a menej trigram = iacviac a menej trigram = ac_... ...viac a menej trigram = nej

Trigramy pre text: „viac a menej“:

Vytvorenie profilu

Určenie deliacej funkcie• Určenie hranice, ktorá oddeľuje slovenské texty

od ne-slovenských

• Existuje vždy priestor pre vytvorenie tejto hranice?

• Zaručuje deliaca funkcia oddelenie slovenských a ne-slovenských textov?

Výsledky• Úspešnosť správnej identifikácie jazyka a kódovania

zároveň

• Množstvo čistého textu nachádzajúceho sa na webstránkach

Iné možnosti

• prechod od n-gramov ku Markovovým reťazcom

• text: neskôr• trigram: nes, esk, skô, kôr• Markovov reťazec s dĺžkou prefixu 3

nes->k , esk->ô , skô ->r

p(nes->k), p(esk->ô), p(skô ->r)

Lepšie testovacie množiny• Histogram súboru získaných webstránok v neznámom

jazyku a kódovaní

• Histogram Reuters korpusu – známy jazyk a kódovanie

Úspešnosť identifikácie pomocou Markovových reťazcov

Zhrnutie

• Dosiahnuté ciele– metóda Shift-Codon párovania -

univerzálna metóda na identifikáciu jazyka a kódovania

– overenie funkčnosti na menšej množine príbuzných jazykov

– stiahnutie veľkej množiny zvolených webstránok a ich analýza

– rozsiahly korpus s podobnými charakteristikami ako získané webstránky

– vylepšená metóda pracujúca s Markovovými reťazcami

Documents

Natural Language Identification in the World Wide Web