14
 PA164 Strojové učení a př irozený jazyk Luboš Popelínský http://www.fi.muni.cz/~popel/lectures/ll [email protected]

Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

PA164 Strojové učení a př irozený jazyk

Luboš Popelínský

http://www.fi.muni.cz/~popel/lectures/ll

[email protected]

Page 2: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

Sylabus

• Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. 

• Přehled metod strojového učení • Desambiguace. Morfologická desambiguace a 

desambiguace významu slov • Mělká a úplná syntaktická analýza a strojové učení • Hledání lexikálních jednotek a kolokací • Kategorizace dokumentů • Extrakce informace z textu • Dolování v textu • Dolování v hypertextu a WWW • Sémantický web 

Page 3: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

Zdroje informacíAssociation of Computational Linguistics

http://www.cs.columbia.edu/~acl/SIG on Natural Language Learning

http://ilk.kub.nl/~signll/

corpora mailling list http://www.hit.uib.no/corpora/

Konference CoNLL; ACL,EACL,NAACL, COLING; TSDText Mining Ws KDD Conf. D.Mladenič http://www­ai.ijs.si/DunjaMladenic/home.html

J. Hidalgo, ECML/PKDD Tutorial on Text Mining and Internet Content Filtering, http://ecmlpkdd.cs.helsinki.fi/tutorials.html

Page 4: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

              Zpracování př irozeného jazyka I

součást počítačové lingvistikyporozumění přirozenému jazyku s pomocí počítače

zde         zpracování textu         strojové učení

nikoliv         zpracování řeči (Jelinek97)         generování textu, strojový překlad

Page 5: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

           Zpracování př irozeného jazyka II

­ morfologické značkování (Brill, Cussens, FIMU)­ opravy chyb v textu (DanRoth, http://l2r.cs.uiuc.edu/~danr/)­ automatická syntaktická analýza, shallow parsing­ shlukování termů a dokumentů­ kategorizace dokumentů­ extrakce informací z textu­ sumarizace textu ...­ dolování na Internetu (Hidalgo, Mladenič)

Page 6: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

Korpusy  http://www.uni­giessen.de/~ga1007/ComputerLab/corpora.htm

  British National Corpus          http://www.natcorp.ox.ac.uk/

  Penn Tree Bank                     http://www.cis.upenn.edu/~treebank/home.html

  Brown Corpus        http://www.scs.leeds.ac.uk/amalgam/tagsets/brown.html

Page 7: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

České korpusy            Prague Dependency Tree Bank           ČNK   http://ucnk.ff.cuni.cz/

      DESAM (Pala et al.97) 

      

Page 8: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

Korpus DESAM

(Pala et al.97) 

Pozic                                             1 247 594 Různých slovních tvarů                   132 447 Slovní tvary vyskytující se jen 1x     67 059 Různá lemmata                                  34 606 Lemmata vyskytující se 1x                11 759 

čeština:Různé tagy                                1 665 slovních kořenů            164 000 

Page 9: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

Gramatické kategorie

http://www.fi.muni.cz/~pary/korp/tamtéž/gramkat.html

Rod  Mužský životný/ neživotný  gM/gI     Libovolný gX  Muž.než.+střední gY   Mužský  +střední gU

Modus   Infinitiv/ Indikativ /  Imperativ  mF / mI /mRVid Perfectum/ Imperfectum aP / aIStupňování Nominativ / Komparativ / Superlativ  d1 / d2 / d3

Page 10: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

Příklad

Od  <l> od <t> k7c2 rána <l> ráno  <t> k1gNnSc2,k1gNnPc145          <l> rána  <t> k1gFnSc1 je         <l> být  <t> k5eAp3nStPmIaI             <l> on  <t> k3xPgNnSc4p3,k3xPgXnPc4p3 Ivana   <l> Ivan  <t> k1gMnSc24             <l> Ivana  <t> k1gFnSc1 se         <l> s  <t> k7c7             <l> sebe  <t> k3xXnSc4 ženou  <l> žena  <t> k1gFnSc7             <l> hnát  <t> k5eAp3nPtPmIaI h

Page 11: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

Korpusové manažery

Pavel Rychlý http://www.fi.muni.cz/~pary/korptamtéž/cqp.html

> cqp [no corpus]> DESAM; DESAM> show +tag; DESAM> "se" "se"; Sc6 roku/k1gInSc2 1993/ <se/k3xXnSc4 se/k7c7> zájemci/k1gMnPc7 o/k7c4 jednávalo/k5eApNnStMmPaI <se/k3xXnSc4 se/k7c7> zaťatými/k2eAgXnPc7 eAgMnPc1d1 lidé/k1gMnPc1 <se/k3xXnSc4 se/k7c7> slovy/k1gNnPc7 “ / Češ i

  CQP (Corpus Query Processor) Univ.Stuttgarthttp://www.ims.uni­stuttgart.de/projekte/CorpusWorkbench/

Page 12: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

CQP: Př íklad 2

PUBL> "[Ss]estr.*" ("a"|"i") []{0,4} "[uk].*";

199746: nost , že Irák již bombu <sestrojil a poté ji ukryl >. Podle zjiš tění CBS získ 3309273: se uskuteční v italském <Sestriere a v klasici >budou bojovat v norském T 4033789: ětš í nároky na zdravotní <sestry i na přístrojové vybavení , které> mělo k

dispozici málokter

první slovo začíná na "sestr" nebo "Sestr", druhé je "a" nebo "i", dále následuje 0 až 4 libovolné pozice poslední je slovo začínající písmenem "k" nebo "u".

Page 13: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

Morfologický analyzátor ajka 

(Sedláček01) 

<s> =kol=== (755­kolo)    <l> kolo    <c>k1gNnPc2

<s> =kol=== (1180­pila)    <l>kola    <c>k1gFnPc2

<s> =kol=== (750­kolem)<l>kol

    <c>k7c2

Page 14: Strojové učení a přirozený jazykpopel/lectures/ll/ll01.pdf · Sylabus • Zpracování přirozeného jazyka. Řídkost dat. Korpusy. Nástroje. Jazyk Prolog. • Přehled metod

   

Další nástroje

Parciální syntaktický analyzátor (Žáčková02)

WordNet http://www.cogsci.princeton.edu/~wn/

Slovníky

NLP Toolbox

Brillův tagger

Weka