Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
PA164 Strojové učení a př irozený jazyk
Luboš Popelínský
http://www.fi.muni.cz/~popel/lectures/ll
Sylabus
• Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog.
• Přehled metod strojového učení • Desambiguace. Morfologická desambiguace a
desambiguace významu slov • Mělká a úplná syntaktická analýza a strojové učení • Hledání lexikálních jednotek a kolokací • Kategorizace dokumentů • Extrakce informace z textu • Dolování v textu • Dolování v hypertextu a WWW • Sémantický web
Zdroje informacíAssociation of Computational Linguistics
http://www.cs.columbia.edu/~acl/SIG on Natural Language Learning
http://ilk.kub.nl/~signll/
corpora mailling list http://www.hit.uib.no/corpora/
Konference CoNLL; ACL,EACL,NAACL, COLING; TSDText Mining Ws KDD Conf. D.Mladenič http://wwwai.ijs.si/DunjaMladenic/home.html
J. Hidalgo, ECML/PKDD Tutorial on Text Mining and Internet Content Filtering, http://ecmlpkdd.cs.helsinki.fi/tutorials.html
Zpracování př irozeného jazyka I
součást počítačové lingvistikyporozumění přirozenému jazyku s pomocí počítače
zde zpracování textu strojové učení
nikoliv zpracování řeči (Jelinek97) generování textu, strojový překlad
Zpracování př irozeného jazyka II
morfologické značkování (Brill, Cussens, FIMU) opravy chyb v textu (DanRoth, http://l2r.cs.uiuc.edu/~danr/) automatická syntaktická analýza, shallow parsing shlukování termů a dokumentů kategorizace dokumentů extrakce informací z textu sumarizace textu ... dolování na Internetu (Hidalgo, Mladenič)
Korpusy http://www.unigiessen.de/~ga1007/ComputerLab/corpora.htm
British National Corpus http://www.natcorp.ox.ac.uk/
Penn Tree Bank http://www.cis.upenn.edu/~treebank/home.html
Brown Corpus http://www.scs.leeds.ac.uk/amalgam/tagsets/brown.html
České korpusy Prague Dependency Tree Bank ČNK http://ucnk.ff.cuni.cz/
DESAM (Pala et al.97)
Korpus DESAM
(Pala et al.97)
Pozic 1 247 594 Různých slovních tvarů 132 447 Slovní tvary vyskytující se jen 1x 67 059 Různá lemmata 34 606 Lemmata vyskytující se 1x 11 759
čeština:Různé tagy 1 665 slovních kořenů 164 000
Gramatické kategorie
http://www.fi.muni.cz/~pary/korp/tamtéž/gramkat.html
Rod Mužský životný/ neživotný gM/gI Libovolný gX Muž.než.+střední gY Mužský +střední gU
Modus Infinitiv/ Indikativ / Imperativ mF / mI /mRVid Perfectum/ Imperfectum aP / aIStupňování Nominativ / Komparativ / Superlativ d1 / d2 / d3
Příklad
Od <l> od <t> k7c2 rána <l> ráno <t> k1gNnSc2,k1gNnPc145 <l> rána <t> k1gFnSc1 je <l> být <t> k5eAp3nStPmIaI <l> on <t> k3xPgNnSc4p3,k3xPgXnPc4p3 Ivana <l> Ivan <t> k1gMnSc24 <l> Ivana <t> k1gFnSc1 se <l> s <t> k7c7 <l> sebe <t> k3xXnSc4 ženou <l> žena <t> k1gFnSc7 <l> hnát <t> k5eAp3nPtPmIaI h
Korpusové manažery
Pavel Rychlý http://www.fi.muni.cz/~pary/korptamtéž/cqp.html
> cqp [no corpus]> DESAM; DESAM> show +tag; DESAM> "se" "se"; Sc6 roku/k1gInSc2 1993/ <se/k3xXnSc4 se/k7c7> zájemci/k1gMnPc7 o/k7c4 jednávalo/k5eApNnStMmPaI <se/k3xXnSc4 se/k7c7> zaťatými/k2eAgXnPc7 eAgMnPc1d1 lidé/k1gMnPc1 <se/k3xXnSc4 se/k7c7> slovy/k1gNnPc7 “ / Češ i
CQP (Corpus Query Processor) Univ.Stuttgarthttp://www.ims.unistuttgart.de/projekte/CorpusWorkbench/
CQP: Př íklad 2
PUBL> "[Ss]estr.*" ("a"|"i") []{0,4} "[uk].*";
199746: nost , že Irák již bombu <sestrojil a poté ji ukryl >. Podle zjiš tění CBS získ 3309273: se uskuteční v italském <Sestriere a v klasici >budou bojovat v norském T 4033789: ětš í nároky na zdravotní <sestry i na přístrojové vybavení , které> mělo k
dispozici málokter
první slovo začíná na "sestr" nebo "Sestr", druhé je "a" nebo "i", dále následuje 0 až 4 libovolné pozice poslední je slovo začínající písmenem "k" nebo "u".
Morfologický analyzátor ajka
(Sedláček01)
<s> =kol=== (755kolo) <l> kolo <c>k1gNnPc2
<s> =kol=== (1180pila) <l>kola <c>k1gFnPc2
<s> =kol=== (750kolem)<l>kol
<c>k7c2
Další nástroje
Parciální syntaktický analyzátor (Žáčková02)
WordNet http://www.cogsci.princeton.edu/~wn/
Slovníky
NLP Toolbox
Brillův tagger
Weka