12

Click here to load reader

Natural Language Identification in the World Wide Web

  • Upload
    avak

  • View
    30

  • Download
    2

Embed Size (px)

DESCRIPTION

Natural Language Identification in the World Wide Web. Peter Vojtek. Supervisor: Ing. Vladimír Grlický. Motivácia a ciele. Motivácia Ak é jazyky sa nachádzajú na internete? Koľko webstránok je v určitom jazyku a kódovaní? Ako identifikovať jazyk a kódovanie textu? Ciele - PowerPoint PPT Presentation

Citation preview

Page 1: Natural Language Identification in the World Wide Web

Natural Language Identification in the World Wide WebPeter Vojtek

Supervisor: Ing. Vladimír Grlický

Page 2: Natural Language Identification in the World Wide Web

Motivácia a ciele

• Motivácia– Aké jazyky sa nachádzajú na internete?– Koľko webstránok je v určitom jazyku a

kódovaní?– Ako identifikovať jazyk a kódovanie

textu?

• Ciele– Čo je to „slovenský internet“?– Akú metódu použiť na identifikáciu

jazyka a kódovania webstránok?

Page 3: Natural Language Identification in the World Wide Web

Slovenský internet• reprezentácia slovenského internetu – indexové

stránky všetkých slovenských druhostupňových domén

• stiahnutie webstránok – crawler

• extrahovanie čistého textu - parser

www.fiit.stuba.sk: sk – doména 1. rádustuba – doména 2. rádu fiit – doména 3. rádu

databáza SK-NIC: ~70 000 doménúspešne stiahnutých ~ 45 000 webstránok

Page 4: Natural Language Identification in the World Wide Web

Identifikácia jazyka a kódovania

• Cieľ– vytvoriť nástroj, ktorý dokáže

rozhodnúť, v akom jazyku a kódovaní je dokument napísaný

Jazyky • slovenský jazyk• český jazyk• poľský jazyk

Kódovania

• UTF-8• Windows-1250• ISO 8859-2

Page 5: Natural Language Identification in the World Wide Web

Metóda Shift-Codon párovania

Kroky:A. Vytvorenie/získanie korpusuB. Vytvorenie množín referenčných trigramov (profil)C. Zistenie výskytu trigramov v skúmanom texteD. Rozhodovanie na základe deliacej funkcie

A. B. C. D.

Page 6: Natural Language Identification in the World Wide Web

• získanie trigramov z korpusu

• zoradenie trigramov podľa početnosti výskytu

• výber n najpočetnejších trigramov

viac a menej trigram = viaviac a menej trigram = iacviac a menej trigram = ac_... ...viac a menej trigram = nej

Trigramy pre text: „viac a menej“:

Vytvorenie profilu

Page 7: Natural Language Identification in the World Wide Web

Určenie deliacej funkcie• Určenie hranice, ktorá oddeľuje slovenské texty

od ne-slovenských

• Existuje vždy priestor pre vytvorenie tejto hranice?

• Zaručuje deliaca funkcia oddelenie slovenských a ne-slovenských textov?

Page 8: Natural Language Identification in the World Wide Web

Výsledky• Úspešnosť správnej identifikácie jazyka a kódovania

zároveň

• Množstvo čistého textu nachádzajúceho sa na webstránkach

Page 9: Natural Language Identification in the World Wide Web

Iné možnosti

• prechod od n-gramov ku Markovovým reťazcom

• text: neskôr• trigram: nes, esk, skô, kôr• Markovov reťazec s dĺžkou prefixu 3

nes->k , esk->ô , skô ->r

p(nes->k), p(esk->ô), p(skô ->r)

Page 10: Natural Language Identification in the World Wide Web

Lepšie testovacie množiny• Histogram súboru získaných webstránok v neznámom

jazyku a kódovaní

• Histogram Reuters korpusu – známy jazyk a kódovanie

Page 11: Natural Language Identification in the World Wide Web

Úspešnosť identifikácie pomocou Markovových reťazcov

Page 12: Natural Language Identification in the World Wide Web

Zhrnutie

• Dosiahnuté ciele– metóda Shift-Codon párovania -

univerzálna metóda na identifikáciu jazyka a kódovania

– overenie funkčnosti na menšej množine príbuzných jazykov

– stiahnutie veľkej množiny zvolených webstránok a ich analýza

– rozsiahly korpus s podobnými charakteristikami ako získané webstránky

– vylepšená metóda pracujúca s Markovovými reťazcami