Recunoasterea umorului ˆın texte

Embed Size (px)

Text of Recunoasterea umorului ˆın texte

  • Recunoasterea umorului n texte

    Tifrea OanaFacultatea de Informatica,

    Universitatea Alexandru Ioan Cuza,Iasi,

    coordonator: Dan Cristea,

    29 iunie 2008

  • Cuprins

    1 Introducere 51.1 O privire de ansamblu asupra umorului . . . . . . . . . . . . . 61.2 Tipuri de umor . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    1.2.1 Gramatica umorului . . . . . . . . . . . . . . . . . . . 101.3 Teoriile umorului . . . . . . . . . . . . . . . . . . . . . . . . . 111.4 Criterii pentru determinarea succesului umorului . . . . . . . . 131.5 Umorul din punct de vedere social . . . . . . . . . . . . . . . . 14

    2 Cercetarile n domeniul umorului computational 162.1 Generare de umor . . . . . . . . . . . . . . . . . . . . . . . . . 16

    2.1.1 LBJOJG . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1.2 Jape . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.1.3 HAHAcronym . . . . . . . . . . . . . . . . . . . . . . . 172.1.4 WISCRAIC . . . . . . . . . . . . . . . . . . . . . . . . 172.1.5 MSG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.1.6 Jester . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.2 Recunoasterea umorului . . . . . . . . . . . . . . . . . . . . . 182.2.1 Recunoasterea umorului fara ntelegera sensului . . . . 182.2.2 Aplicarea clasificatorilor de texte si a unor atribute

    pentru recunoasterea umorului . . . . . . . . . . . . . . 21

    3 Experimente de identificare a umorului prin implementareaalgoritmii clasici de clasificare de texte 263.1 Clasificarea de texte . . . . . . . . . . . . . . . . . . . . . . . 263.2 Metode de reprezentare a documentelor . . . . . . . . . . . . . 28

    3.2.1 N-gramele . . . . . . . . . . . . . . . . . . . . . . . . . 293.3 Masinile cu vector suport (Suport Vector Machine SVM) . . . 303.4 Clasificatorul Bayes Naiv . . . . . . . . . . . . . . . . . . . . . 34

    1

  • 4 Experimente n detectarea automata a umorului si rezul-tatele obtinute 364.1 Corpusurile . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.2 Experimentele . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    5 Interpretarea rezultatelor 465.1 Observatii privind rezultatele obtinute . . . . . . . . . . . . . 465.2 Posibilitati de mbunatatii programul de recunoastere al umoru-

    lui n texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.3 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    2

  • Lista de figuri

    3.1 Maparea pe un alt spatiu . . . . . . . . . . . . . . . . . . . . 313.2 SVM-hiperplanul si vectorii suport . . . . . . . . . . . . . . . 33

    4.1 Numarul de cuvinte din componenta glumelor . . . . . . . . . 374.2 Numarul cuvintelor pe categorii din componenta textelor non-

    umoristice Corpus 1 . . . . . . . . . . . . . . . . . . . . . . . 384.3 Distributia numarului de cuvinte penrtu datele nonumoristice

    dupa a doua filtrare . . . . . . . . . . . . . . . . . . . . . . . . 404.4 Experimetul I . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.5 Experimentul II . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    3

  • Lista de tabele

    1.1 Scara nivelurilor de de atasament . . . . . . . . . . . . . . . . 14

    2.1 Recunoasterea umorului prin caracteristici . . . . . . . . . . . 212.2 Rezultatele obtinute folosind euristicile stilistice . . . . . . . . 252.3 Rezultatele obtinute folosind algoritmi de invatare automata . 25

    4.1 Structura Datelor dupa prima filltrare . . . . . . . . . . . . . 374.2 Media numarului de cuvinte pentru datele nonumoristice . . . 394.3 Numarul de componente al vectorilor . . . . . . . . . . . . . . 424.4 Numarul de componente al vectorilor . . . . . . . . . . . . . . 44

    4

  • Capitolul 1

    Introducere

    Rationamentul corect se naste din experienta. Experienta se naste dinrationament eronat. Concluzie: Rationamentul corect se naste din

    rationament eronat.(anonim)

    La ntelegerea acestor cuvinte suntem contrariati de absurditatea logiciisi izbucnim n ras.

    Umorul are un caracter specific (literar, subtil sau fin) prin solutii neasteptate,caraghioase care pot produce ilaritate. Persoanele cu umor sunt acele per-soane care prin comportare sau prin vorbe, n anumite contexte, declanseazarasul.

    Simtul umorului este influentat de traditiile, cultura, istoria unui popor,sau difera dupa pozitia pe scara ierarhiei sociale sau dupa etate. Nu numai cavariaza de la o persoana la alta, dar se poate ca aceasi persoana sa gaseasca ogluma ca fiind amuzanta ntr-o zi si n alta zi nu, depinzand de starea de spirita persoanei, de evenimentele recent petrecute n viata persoanei respective.

    Umorul difera de asemenea dupa anumite perioade istorice, multe glumedin trecut nemaifiind actualedeoarece a disparut contextul care permitea per-ceperea lor ca avand un anumit haz. Umorul poate fi usturator prin- satira,ironie, batjocura; cinic, sau bland, binevoitor, plin de ntelegere, autocritic.

    Lucrarea de fata si propune sa depisteze umorul fara a ntelege sensulmesajului. Se vor ncerca algoritmii clasici de clasificare de texte si diferiteatribute ale textelor umoristice si neumoristice determinate euristic.Umorul computational este un domeniu n care exista unele abordari de gasirea unui sablon universal pentru generarea si recunoasterea umorului n texte.

    5

  • Experimentele testate n aceasta lucrera cu privire la recunoasterea umoruluin texte sunt comparabile cu cele existente n domeniu.

    1.1 O privire de ansamblu asupra umorului

    Comunicarea om calculator nu mai constituie demult un deziderat iluzoriual inteligentei artificiale. Pentru ca aceasta comunicare sa fie una cat maiapropiata de comunicarea interumana, calculatorul (va trebui nu numai sa re-cunoasca, ci si sa foloseasca si umorul. Mai mult, umorul ofera profunzimi alelimbajului uman- referindu-ne la cel real, complex, un limbaj creativ nu doaro multime de propozitii standard. Reusind sa modelam ntelegerea si gener-area umorului de catre calculatoare, castigam o mai buna imagine asupramodului n care creierul uman functioneaza nu doar n privinta umoruluici a limbajului si cunosterii n general. Sunt multe situatii n interactiuneainterumana unde umorul joaca un rol important permitand continuitateaconversatiei, ntarind relatiile interumane. Urmati de paradigma CASA(Computers are Social Actors)(Calculatoarele sunt actori sociali) ne putemastepta ca umorul sa joace un rol similar si n interactiunea om-calculator.

    In acceptiunea populara, calculatoarele nu vor putea sa foloseasca si saaprecieze umorul. Calculatoarele fictionale si robotii au fost mereu imaginatica fiind fara de umor chiar daca pot utiliza limbajul natural. Dar si sahul afost odata considerat ca fiind un domeniu al oamenilor iar acum calculatoarelejoaca la nivel grandmaster.

    Agentii sociali si inteligenti au devenit o paradigma pentru rezolvareasi descrierea problemelor n stilul oamenilor. Cercetarile n privinta acestoragenti includ capacitatea de perceptie a dorintelor, credintelor si a intentiilor.Dar precum spune si Roddz Cowie, Daca vom arata emotii la acesi agenti cusiguranta ne vom astepta ca ei sa aiba si un pic de simt al umorului [Binstedet al., 2006].

    Pentru a ntelege umorul trebuie sa-l plasam n mediul sau natural, careeste societatea, trebuie mai ntai sa-i determinam functia utila, care este ofunctie sociala. Dintre influentele pozitive ale umorului putem mentiona:

    afecteaza atentia si memoria [Baym, 1995];

    faciliteaza interactiunile sociale [Binsted et al., 2006];

    amelioreaza problemele de comunicare [Bergson, 1992];

    6

  • ajuta la armonizarea unei conversa tii[Bergson, 1992];

    poate stabili un punct comun ntre partenerii de discutie [Hewitt, 2002];

    face conversatia placuta [Nijholt, 2005];

    contribuie la motivare, la atentie, la ntelegerea si captarea informatiilorsi dezvoltarea unui sentiment afectiv a mesajului [Nijholt, 2006] [Bin-sted et al., 2006];

    poate nlesni problemele de comunicare ce pot aparea n interactiuneadintre agenti si om, pentru ca umorul este un mecanism primar destabilire a individualitatii, ntarindu-se raporturile acestei comunicari(omul se simte apreciat atunci cand altii i recunoscc glumele ceea cembunatateste [Baym, 1995] [Black and Forro, 1999];

    umorul nlesneste comunicarea si nvatarea individuala si ajuta la sin-cronizarea nvatarii n grup atat la adulti cat si la tineri [Binsted et al.,2006];

    faciliteaza crearea unei ntelegeri comune, ajuta la generarea solidaritatiisi a identitatii de grup [Binsted et al., 2006];

    reduce stressul [Binsted et al., 2006];

    stimuleaza creativitatea si mbunatateste comunicarea, morala si pro-ductivitatea [Stock and Strapparava, 2006];

    atragerea atentiei auditoriului [Stock and Strapparava, 2006];

    ajuta la memorare [Stock and Strapparava, 2006];

    Umorul trebuie sa raspunda unor exigente ale vietii n comun, avand osemnificatie sociala. Nerespectarea acestor exigente de utilizare a umoruluipoate genera efecte contrare pentru care umorul a fost initial creat. Potaparea astfel tensiuni de ordin personal si social:

    cateodata este greu de nteles glumele celorlalti deoarece indivizii, desiau acelasi set de cunostinte, au rationamente total diferite. Mediul so-cial al umorului este vast si umorul poate fi vazut ca o parte din altemulte actiuni sociale. Potrivit sociologilor impactul unei glume si aumorului este foarte mare n viata de zi cu zi;

    7

  • n cadrul grupului -umorul se bazeaza pe normele grupului, cunostinte,practici si probleme, generand identitatea umana dar si pe cea degrup. Vorbim despre o identitate individuala, pentru ca fiecare dincei implicati transmit parti de mesaje care apoi sunt filtrate de fiecareindivid n parte. De