31
Počítače a porozumění textu Luboš Popelínský Fakulta informatiky MU [email protected] http://www.fi.muni.cz/~popel http://www.fi.muni.cz/kd Brno 4. ledna 2007

Počítače a porozumění textu

  • Upload
    bazyli

  • View
    37

  • Download
    4

Embed Size (px)

DESCRIPTION

Počítače a porozumění textu. Luboš Popelínský Fakulta informatiky MU [email protected] http://www.fi.muni.cz/~popel http://www.fi.muni.cz/kd Brno 4. ledna 2007. Obsah. Po rozumění textu - PowerPoint PPT Presentation

Citation preview

Page 1: Počítače a porozumění textu

Počítače a porozumění textu

Luboš Popelínský

Fakulta informatiky MU

[email protected]

http://www.fi.muni.cz/~popel

http://www.fi.muni.cz/kd

Brno 4. ledna 2007

Page 2: Počítače a porozumění textu

Obsah

Porozumění textu

Historie - umělá inteligence

Automatická klasifikace textů

Rozpoznání nevyžádaných elektronických zpráv (spamů)

Komunikace s počítačem v přirozeném jazyce

Page 3: Počítače a porozumění textu

Všichni muži jsou stejní.V JAKÉM SMYSLU?Pořád nás nčím obtěžují.MUŽETE UVÉST NĚJAKÝ PŘÍKLAD?Ano, poslal mne sem můj přítel.VÁŠ PŘÍTEL VÁS SEM POSLAL?Říká, že jsem skoro pořád sklíčená. JE MI LÍTO, ŽE JSTE SKLÍČENÁ.Je to pravda. Jsem nešťastná.MYSLÍTE, ŽE VÁM TATO NÁVŠTĚVA POMUŽE?Potřebuji nějakou pomoc, to je jisté.….

Page 4: Počítače a porozumění textu

Sněhu je málo i v Alpách, lyžuje se hlavně na ledovci (MF Dnes dnes)

Praha - Evropa prožívá jednu z nejteplejších zim a sníh chybí lyžařům nejenom v Česku.

V Alpách sice většina středisek funguje, ale mají často omezený provoz a musí se spoléhat na technický sníh. Lidé by si tak před cestou měli ověřit, jaké podmínky lyžařské areály nabízejí.

„Největší jistotou jsou ledovce,“ říká Ingrid Siederová z pražské pobočky Rakouské národní turistické centrály.

V italských střediscích se v současné době lyžuje zhruba na třech čtvrtinách sjezdovek. Podobná je situace i ve Francii.

Page 5: Počítače a porozumění textu

Porozumění textu

Různé úrovně porozumění

ZdrojJazykStyl - zpráva, úvahaAutorPostojTéma

„Kam jet lyžovat?“

Page 6: Počítače a porozumění textu

Dartmouth College, Hannover, New Hampshire1956

John McCarthy et al.

V roce 1970 počítač- Odhalí nové významné matematické věty - Bude velmistrem v šachu- Bude schopen komponovat vážnou hudbu na úrovni

klasiků- Porozumí přirozenému jazyku a bude umět překládat

Page 7: Počítače a porozumění textu

Dokazování vět

1976 potvrzení důkazu „čtyř barev“

V rámci dokazování bylo třeba klasifikovat určitý počet map. Úkol přesahoval lidské možnosti, počítače jej však již tehdy

zvládlyDůkaz ale přesto provázejí určité "filozofické" pochybnostiRegulérní matematický důkaz by se neměl dělat výčtem

prvků - a řada důkazů takto udělat opravdu nejde.

V téže době – základy logického programování, jazyk Prolog

Page 8: Počítače a porozumění textu

Deep Blue

„… počítač bude velmistrem v šachu“

1996

Gary Kasparov prohrál s šachovým počítačem

IBM Deep Blue

v simultánní hře

Page 9: Počítače a porozumění textu

ELIZA

Joseph Weizenbaum 1966

Komunikace s počítačem v přirozeném jazyce

typu lékař (psychiatr) - pacient

Page 10: Počítače a porozumění textu

Sněhu je málo i v Alpách, lyžuje se hlavně na ledovci (MF Dnes dnes)

Praha - Evropa prožívá jednu z nejteplejších zim a sníh chybí lyžařům nejenom v Česku.

V Alpách sice většina středisek funguje, ale mají často omezený provoz a musí se spoléhat na technický sníh. Lidé by si tak před cestou měli ověřit, jaké podmínky lyžařské areály nabízejí.

„Největší jistotou jsou ledovce,“ říká Ingrid Siederová z pražské pobočky Rakouské národní turistické centrály.

V italských střediscích se v současné době lyžuje zhruba na třech čtvrtinách sjezdovek. Podobná je situace i ve Francii.

Page 11: Počítače a porozumění textu

Příklad: vícevýznamová slova

čeština:

koruna (stromu, platidlo, na hlavě), strana, …

portugalština:

Ela me contou tudo.

Ela contou pelo menos vinte pessoas.

Ela contou comigo.

Page 12: Počítače a porozumění textu

Příklad: vícevýznamová slova

Ele contou pelo menos vinte pessoas.

Ele contou mais que vinte pessoas.

Ele contou mais que 10 hommes.

O diretor contou com 12 cavalos.

A profesora countou com o Luis.

1. Ela me contou tudo.

2. Ela contou pelo menos vinte pessoas.

3. Ela contou comigo.

Page 13: Počítače a porozumění textu

Klasifikace textu

určení autora, žánru, tématu

na základě příkladů a protipříkladů

články z českých novin

Page 14: Počítače a porozumění textu

Klasifikace českých novinových článků

převážně Mladá fronta

určení autora – rubrika Názory, Steigerwald, Komárek, Bendová

určení rubriky – titulní strana, Názory, Lidé

určení tématu/postoje – jaderné elektrarny, pro/proti vstupu do EU, pro/proti Klausovi

Page 15: Počítače a porozumění textu

Metoda

1. Vytvoř seznam všech (důležitých) slov v sadě dokumentů

2. Reprezentuj dokument jako seznam dvojic (slovo,výskyt), kde výskyt=, pokud se slovo v dokumentu vyskytuje, jinak 0.

3. Označ dokumenty daného autora (pozitivní příklady)

4. A dokumenty ostatních autorů jako negativní příklady

5. Použij učící algoritmus

Page 16: Počítače a porozumění textu

Výsledky

počet správně klasifikovaných dokumentů

> 90% při rozpoznávání autora a rubriky

~ 70% při rozpoznávání tématu nebo postoje

Page 17: Počítače a porozumění textu

Diskuse

Rozumí počítač těmto textům?

Proč to funguje?

Kdy to fungovat nebude?

Page 18: Počítače a porozumění textu

Je to vůbec k něčemu užitečné?

filtrování zajímavých odborných článků

filtrování „závadných“ webovských stránek

A především

filtrování nevyžádané elektronické pošty - spamů

Page 19: Počítače a porozumění textu

Filtrování nevyžádané elektronické pošty

Spam = pošta nabízející nevyžádané produkty a služby

Filtrování obvykle: člověkěm vytvořená pravidla (SpamAssassin)

Hlavní nevýhoda: stejná pravidla pro každého

Alternativa: použít učící program

Např. DSPAM http://dspam.nuclearelephant.com

Posílat mu obdržené spamy a možná hamy (tj. ne-spamy)

Program analyzuje obsah těchto zaslaných zpráv

Přesnost 99.5\% - 99.95\%, = 1 chyba na každých 200 to 2000 zpráv

Page 20: Počítače a porozumění textu

Příklad 1 „počítačová hra“. Můžeme se naučit roboty rozlišit na základě krátké zkušenosti?

přátelští nepřátelští

Page 21: Počítače a porozumění textu

Příklad 1 „počítačová hra“. Můžeme se naučit roboty rozlišit na základě krátké zkušenosti?

přátelští nepřátelští

Page 22: Počítače a porozumění textu

Příklad 1: Roboti a atributový popis

tvar hlavy úsměv ozdoba krku tvar tělapředmět v

ruce přátelský

Kruh ne kravata čtverec šavle ne

Čtverec ano motýlek čtverec nic ano

Kruh ne motýlek Kruh šavle ano

Trojúhelník ne kravata čtverec balón ne

Kruh ano nic trojúhelník květina ne

Trojúhelník ne nic trojúhelník balon ano

Trojúhelník ano kravata Kruh nic ne

Kruh ano kravata Kruh nic ano

Page 23: Počítače a porozumění textu

Příklad 1: hypotéza a její testování

H1 ve tvaru rozhodovacího stromu if ozdoba_krku( r) = motýlek then „přátelský robot” = nic then if tvar_hlavy ( r) = trojúhelník then „přátelský robot“ else „nepřátelský robot“ = kravata then if tvar_těla( r) = čtverec then „nepřátelský robot“ else if tvar_hlavy ( r) = kruh then „přátelský robot“ else „nepřátelský robot“

Tvarhlavy

úsměv Ozdobakrku

Tvar těla předmět Přátelský?

kruh ne kravata kruh šavle ano

trojúhelník ano nic čtverec nic ano

Page 24: Počítače a porozumění textu

ELIZA

Joseph Weizenbaum

http://en.wikipedia.org/wiki/Joseph_Weizenbaum

http://jerz.setonhill.edu/if/canon/eliza.htm

Page 25: Počítače a porozumění textu

Další informace

Association of Computational Linguistics

SIG on Natural Language Learning

corpora mailling list http://www.hit.uib.no/corpora/

konferenceCoNLL; ACL,EACL,NAACL, COLING; TSDText Mining Ws KDD Conf. D.Mladenič http://www-ai.ijs.si/DunjaMladeNone/home.html

J. Hidalgo, ECML/PKDD Tutorial on Text Mining and Internet Content Filtering, http://ecmlpkdd.cs.helsinki.fi/tutorials.html

Page 26: Počítače a porozumění textu

Díky za pozornost.

Děkuji Janu Blaťákovi a Peterovi Krutému za pomoc.

Page 27: Počítače a porozumění textu

Literature(Agrawal93) Agrawal R., Imielinski T., Swami A.:Mining association rules between sets of items in large databases.Proc. of ACM SIGMOD Conference on Management of Data, 1993.

(Aleph) http://web.comlab.ox.ac.uk/oucl/research/areas/machlearn/Aleph/aleph.html

(Bennett00) K. P. Bennett and C. Campbell: Support Vector Machines: Hype or Hallelujah?SIGKDD Explorations Newsletter of the ACM Special Interest Group on Knowledge Discovery And Data Mining December 2000. Volume 2, Issue 2 pp 1-13http://www.acm.org/sigs/sigkdd/explorations/issue2-2/contents.htmBennett

(Cristianini00) Cristianini N., Shawe-Taylor J.:An Introduction to Support Vector Machines and other kernel-base learning methods. Cambridge University Press,2000.

(Cussens97). Cussens J. : Part of speech tagging using Progol. In Inductive Logic Programming: Proceedings of the 7th Intl.Ws(ILP 97). LNAI 1297, pages 93–108, 1997

Cussens J., Džeroski S.(Eds.) Learning Language in Logic, Springer 2000

(Einborg 98) Eineborg, M. and Lindberg, N. Induction of constraint grammar rules using Progol. In Inductive Logic Programming: Proceedings of the 8th International Con ference (ILP 98). LNCS Spinger 1998

Page 28: Počítače a porozumění textu

(Feldman99) Feldman R.:Mining unstructured data.Tutorial 5th ACM SIGKDD conference 1999,http://doi.acm.org/10.1145/312179.312192

(Hajic98)Hajič J., Hladká B.:Tagging Inflective Languages: Prediction of Morphological Categories for a Rich, Structured Tagset. In Proceedings of EACL 1998.

(Forman02) Forman G.: Choose Your Words Carefully: An Empirical Study of Feature SelectionMetrics for Text Classification. Proc of 6th Conf PKDD 2002, LNAI 2413, Springer.

(Hajič01)Hajič J., Krbec P., Květoň P., Oliva K., Petkevič V.:Serial Combination of Rules and Statistics: A Case Study in Czech Tagging.In Proceedings of ACL/EACL 2001, Toulouse}, pages 260--267, 2001.

(Hassoun95) M.Hassoun: Fundamentals of Artificial Neural Network. MIT Press, 1995.

(Jelinek97) Jelinek F.: Statistical Methods for Speech Recognition. MIT Press 1997

(Křivánková02) Křivánková, L., Očko, M., Popelínský, L., Boček, P.: Fast choice of separation conditions for analyses by capillary zone electrophoresis using an information system Xemic. Electrophoresis 2002, 23, 3364-3371.

(LLL99) Cussens J., Džeroski S.(eds.) Proceedings of the 1st Ws on LLL,Bled, Slovenia,1999.

Page 29: Počítače a porozumění textu

(LLL00) Nedellec C.(ed.) Proceedings of the 2nd Ws on LLL, Lisboa, Portugal, 2000.

(LLL01) Nepil M., Popelínský L. (eds.) Proceedings of the 3rd Ws on LLL, Strasbourg,2001.

(Mitchell97) Mitchell T.M.: Machine Learning. McGraw Hill, New York, 1997.

(Mjartan et al.)

(Mugleton94) Muggleton S. and De Raedt L.:Inductive Logic Programming: Theory And Methods. J. Logic Programming 1994:19,20:629-679.

(Nepil 01) Nepil M., Popelinsky L., Zackova E.:Part-of-Speech Tagging by Means of Shallow Parsing, ILP and Active Learning. In Proc. of 3rd Ws on Learning Language in Logic(LLL), Strasbourg, 2001.

(Pala et al. 97) Pala, K., Rychlý P., Smrž, P. (1997). DESAM -annotated corpus for czech. In Plášil F., Jeffery K.G.(eds.): Proceedings of SOFSEM'97, LNCS 1338, pages 60–69.

Page 30: Počítače a porozumění textu

(Pavelek00) Pavelek, T., Popelínský L., Ptacnik, T. :On Disambiguation in Czech

Corpora.TR Faculty of Informatics MU, 2000

(Sedláček01) Sedláček R., Smrž P.:Automatic Processing of Czech Inflectional and Derivative Morphology. In Proc. of 4th Intl. Conf. TSD 2001, LNAI 1902, 2001,

(Šmerk03) Šmerk P.: Aktivní učení pravidel pro morfologickou desambiguaci. Dipl.práce FI MU Brno 2003

(Tkach98) Tkach D.: Text Mining Technology. Turning Information Into Knowledge.A White Paper from IBM. IBM Software Solutions, Feb 17, 1998.

(Žáčková00) Žáčková00 E., Popelinsky L.,Nepil M.:Recognition and tagging of compound verb groups in Czech.Proc. of 2nd Ws LLL-2000

(Žáčková 02) Žáčková E.: Parciální syntaktická analýza (češtiny). Dizertace FI MU Brno, 2002

(Žižka et al.02) Žižka J., Bourek A.: Automated Selection of Interesting Medical Text Documents by the TEA Text Analyzer. 3rd Conf.on Intelligent Text Processing and

Computational Linguistics (CICLing), Mexico City,Springer-Verlag, 2002, LNCS.

Page 31: Počítače a porozumění textu

Additional references

Cussens, J., Džeroski, S., and Erjavec, T. (1999). Morphosyntactic tagging of Slovene using Progol. In Deroski, S. and Flach, P., editors, Inductive Logic Programming: Proc. of the 9th International Workshop (ILP 99), Bled, Slovenia. Springer Verlag.

Džeroski, S. and Erjavec, T. (1997). Induction of Slovene nominal paradigms. In Inductive Logic Programming: Proceedings of the 7th International Workshop (ILP 97). LNAI 1297, pages 141–148. Springer.

Popelínský L. and Pavelek T. Mining lemma disambiguation rules from Czech corpora In Proc. of 3rdEur. Conf. PKDD'99, Prague Czech Republic 1999. LNCS 1704 pp.498–503, 1999. Popelínský L. and Pavelek T. Ptáčník. T. Towards disambiguation in Czech corpora. In Proc. of the 1st Learning Language in Logic Workshop LLL’99, Bled, 1999. Zavrel, J. and Daelmans, W. (1998). Recent advances in memory based part of speech tagging. TechNoneal report, ILK/Computaional Linguistics, Tilburg University.