Upload
mariel
View
65
Download
6
Embed Size (px)
DESCRIPTION
Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku. Michal Laclavík , Marek Ciglan Ústav In f ormatiky SAV. Obsah. Kto sa zaoberá slovenčinou? Lematizácia a stemming Motiv ácia Lematizácia Stemming Dostupné nástroje pre Slovenčinu - PowerPoint PPT Presentation
Citation preview
WIKT 2006 Bratislava, 28-29 november 2006 1
Dostupné zdroje a výzvy pre počítačové spracovanie Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazykuinformačných zdrojov v slovenskom jazyku
Michal Laclavík, Marek Ciglan
Ústav Informatiky SAV
WIKT 2006 Bratislava, 28-29 november 2006 2
Obsah
• Kto sa zaoberá slovenčinou?• Lematizácia a stemming
– Motivácia– Lematizácia– Stemming– Dostupné nástroje pre Slovenčinu
• Slovenčina v nástrojoch projektu NAZOU
WIKT 2006 Bratislava, 28-29 november 2006 3
Kto sa zaoberá slovenčinou?
• Slovenský jazykovedný ústav Ľ. Štúra SAV (JULS)– V minulosti - Laboratórium počítačovej lingvistiky na
Pedagogickej Fakulte UK - pokračovanie na JULS– korpus slovenského jazyka
• špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe a spracováva na vedecko-výskumné a učebné ciele
• Lingvisti - významy a funkcie slov• V rámci korpusu práca aj na morfológii a lematizácii (R.
Garabík )
WIKT 2006 Bratislava, 28-29 november 2006 4
Kto sa zaoberá slovenčinou?
• Lingvistická dielňa na FEI TU, Košice– Morfológia– tvorba databázy slov slovenského jazyka
• UPJŠ Košice– indexovací a fulltextový engine ktorý využíva aj dáta
zo slovenského slovníka – zapracovanie ďalších zdrojov - slovník cudzích slov
• seminár SLOVKO - International Seminar -Computer Treatment of Slavic and East European Languages– ( SLOVKO 2007 - October 25 – 27 2007 )
WIKT 2006 Bratislava, 28-29 november 2006 5
Kto sa zaoberá slovenčinou?
• Iné– Forma s.r.o.
• spell check pre produkty Microsoftu• produkty na fulltextové vyhľadávanie v slovenčine
– http://www.zbierka.sk/
– sk-spell • open source spell check (napr. v OpenOffice)• anglicko-slovenský slovník • synonymický slovník
WIKT 2006 Bratislava, 28-29 november 2006 6
Lematizácia a stemming
• Motivácia:– Meniaci sa tvar slova – nevýhodou pri počítačovom
spracovaní– Potreba pracovať s rôznymi tvarmi slova ako s
jediným tokenom– Lematizácia a stemming - pri indexácii a vyhľadávaní
• Redukcia slovníka• Zvyšuje recall (vyhľadávanie identifikuje aj dokumenty s
rôznymi tvarmi slov zadaných užívateľom na vstupe)
WIKT 2006 Bratislava, 28-29 november 2006 7
Lematizácia a stemming
• Lematizácia:– základný tvar slova – Napr. lama pre angl. „GO“ zahŕňa aj „go, goes, went,
gone, going “– Realizácia na základe slovníka– WordNet – výkladový slovník angl. jazyka, umožňuje
aj lematizáciu
– Problém: keď vstupné slovo nie je v slovníku
WIKT 2006 Bratislava, 28-29 november 2006 8
Lematizácia a stemming
• Stemming:– „koreň slova“ – Redukcia morfologických variant slova na spoločný
koreň– Stem (koreň) nemusí byť platným prvkom jazyka
• slovo: destabilized ; stem: stabil
– Stemming – realizovaný algoritmicky– Stemmer dodá výstup na každý vstup
– Porterov stemovací algoritmus pre anglický jazyk
WIKT 2006 Bratislava, 28-29 november 2006 9
Lematizácia a stemming
• Dostupné nástroje pre Slovenčinu:– Využitie dát z ispll-u– Lematizátor vyvíjaný na JULS SAV (R. Garabík );
dostupná betaverzia
– Stemmer: • Základ stemmer-u vhodného pre slovanské jazyky (Leo
Galambos)• poľský jazyk – Stempel, Lametyzator
• ? Slovenský stemmer
WIKT 2006 Bratislava, 28-29 november 2006 10
Slovenčina v nástrojoch projektu NAZOU
• potreba ekvivalentu Porterovho algoritmu pre slovenčinu – stemmer– Indexovacie nástroje, Ontea, Erid
• Potreba využitia synonymického slovníka• nástroj ktorý identifikuje zdroj v slovenskom
jazyku (sľubné výsledky – tím z FIIT)
WIKT 2006 Bratislava, 28-29 november 2006 11
Kódovanie dokumentov v slovenčine
• Technický problém:– Rôzne kódovania (win-1250, ISO-8859-2 alebo UTF)– špeciálne HTML značky začínajúce „&#“. – Texty písané bez diakritiky (bežná komunikácia
emailom)
WIKT 2006 Bratislava, 28-29 november 2006 12
Ďakujem za pozornosť