42
www.neticle.hu Budapest, 2012.11.13. Automatikus véleményelemzés Neticle Technologies Szekeres Péter, vezető kutató [email protected] tel.: +36 70 7016488 www.neticle.hu

Neticle bce om_preso_20121113

Embed Size (px)

DESCRIPTION

Neticle presentation on opinion-mining at Corvinus University of Budapest on November 13th, 2012.

Citation preview

Page 1: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Automatikus véleményelemzés

Neticle Technologies

Szekeres Péter, vezető kutató

[email protected]

tel.: +36 70 7016488

www.neticle.hu

Page 2: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

A véleményelemzés vagy sentiment analysis célja olyan algoritmusok kialakítása, melyek számszerűsítik különböző szövegek véleménypolaritását valamilyen pozitív-negatív skálán.

Page 3: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

A véleményelemzés számítástudományból menedzsment eszközzé nőtte ki magát.

(Liu, 2011)

Page 4: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Mire lehet használni?

Összehasonlítás versenytársakkal

Kampányok, események hatásainak vizsgálata

Automatikus értesítések (erősen negatív tartalmak esetén)

Fő ellenző és fő támogató felhasználók azonosítása

Fő ellenző és fő támogató weboldalak

Ad-hoc elemzések végrehajtása

Page 5: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Magyar szereplők

NeticleWebLib

MorphoLogic

OpinHu

Page 6: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Radian6

Page 7: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Data mining

Text mining

NLP

Machine learning

Page 8: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Magyar nyelvű szövegek automatikus feldolgozásának nehézségei

Page 9: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Utóragozás sisak, reggel, folyamod

Tikk (2007) szerint egy főnévnek akár 1400, melléknévnek akár 2700 alakja lehet

Page 10: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Hunglish kifejezések

júzerrel, lájkol, szisztem, deployol

Page 11: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Szleng és webes szleng

lol, lolz, omg, sz@r, f@ck u, mind1, h, zomg

Page 12: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Tagadás

Tagadószavakkal és tiltószavakkal (például: sem, nem, se, ne, se nem, sincs, nincs, sincsen, nincsen),

Fosztóképzők (például: -atlan, -etlen, -mentes)

Page 13: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Beviteli eszköz miatti sajátosságok

Karakterkódolási nehézségek

Page 14: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Szótövezés vs. lemmatizálás

Page 15: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Szint Levágandó Példa

0.Nincs

levágás-

1. Ragok Többes szám első személy ragja: Fizetünk -> Fizet

2.Ragok és

jelekTöbbes szám első személy ragja: Fizetünk -> FizetTöbbes szám első személy ragja + múlt idő jele: Fizettünk -> Fizet

3.

Ragok, jelek és képzők

Többes szám első személy ragja: Fizetünk -> FizetTöbbes szám első személy ragja + múlt idő jele: Fizettünk -> Fizet

Igenévi képző: Fizetendő -> Fizet

4.

Ragok, jelek, képzők és igekötők

Többes szám első személy ragja: Fizetünk -> FizetTöbbes szám első személy ragja + múlt idő jele: Fizettünk-> Fizet

Igenévi képző: Fizetendő -> FizetIgekötő: Megfizet -> Fizet

Page 16: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Szótövezési módszerek

Algoritmikus, nyelvspecifikus transzformációs szabályok

Szavakat és szótöveiket alkalmazó szótárak alkalmazása

Page 17: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Szótár alapú szótövezés Szabály alapú szótövezés

Teljesítmény Lassú Gyors

PontosságElméletileg 100%-os

pontosságot is elérhetKivételszótár bevezetésével

meglehetősen pontos

Skálázhatóság

Csak azokra szóalakokra működik, amelyek szerepelnek a szótárakban.

Új szavak esetén elég csak a kivételszótárakat bővíteni, azt is csak szükség esetén

Kivételes, rendhagyó esetek kezelése

Kivételek, rendhagyó esetek hatékony kezelése

Kivételek nehézkes kezelése

Kivétel szótárak bevezetésével történik

NyelvfüggőségNyelvfüggetlen megoldás Nyelvfüggő megoldás, jelentős

nyelvspecifikus ismereteket igényel

Bővíthetőség, fejleszthetőség

Egyszerű bővíthetőség Nehézkes bővíthetőség

MegvalósításFáradságos szótárépítésFolyamatos karbantartás

Bonyolult szabályrendszer építés

Page 18: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

HunStem

Tordai Anna

Neticle szótövezője

Példák magyar nyelvű szótövezésre

Page 19: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Page 20: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Raglevágó pontosságának alakulása

Raglevágó pontossága

átlagosan: 89,67%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 1203 2405 3607 4809 6011 7213 8415 9617 10819 12021 13223 14425 15627

Szószám

Page 21: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Véleményelemzési kihívások

Page 22: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Tényező Leírás Szövegbányászati

feladat

Feladat nehézsé

ge

Cél entitás Amire a vélemény vonatkozik, például: iPhone

Névelem azonosítás

Nehéz

Aspektus, attribútum

A cél entitás tulajdonsága vagy részeleme, amire a vélemény vonatkozik.

Információkinyerés

Nehéz

Vélemény Maga a - többnyire szubjektív - vélemény

Véleménykinyerés

Könnyű

Forrás Az a személy (felhasználó) aki megfogalmazta a véleményt

Információkinyerési és névelem azonosítási feladat

Nehéz

Idő A vélemény megjelenésének/keletkezésének ideje

Információkinyerési és névelem azonosítási feladat

Nehéz

Page 23: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

A megfelelő szövegegység meghatározása

Page 24: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

A cél entitás azonosítása

Page 25: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Nézőpontok

„Google részvények ára szárnyal ma”

Page 26: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Szakterületi szótárspecializáció

Page 27: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Tipikus előfeldolgozási folyamat

Dokumentum beolvasása

Speciális karakterkódolások kezelése

Dokumentum feldarabolás

Stopszavak kiszűrése

Többféle írásmód egyértelműsítése

Szavak kisbetűssé alakítása

A szavak szótövezése

Dokumentum felbontása karakter n-grammokra/szavakra/szó n-grammokra

Vektortérmodell kialakítása

Page 28: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Véleményelemzési módszerek

Page 29: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Felügyelt gépi tanulással megvalósított véleménymérési módszerek

SVM naiv Bayes

Legközelebb szomszéd módszer

Page 30: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Kétszintű osztályozás és tanítóhalmaz alapján scoring rendszer kialakítása

Page 31: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Véleménymérés döntési fákkal

Page 32: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Felügyeletlen gépi tanulással megvalósított véleménymérés

Szemantikus véleményorientáció megállapítása szinonima szótárra

Szemantikus véleményorientáció megállapítása PMI módszerrel

Page 33: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Gépi tanulás nélküli módszerek

Page 34: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

A Neticle szótár alapú módszere

Véleményszó szótár

Vélemény kifejezés szótár

Véleményerősség szótár

Véleménymódosító szótár

Page 35: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Page 36: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Page 37: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Page 38: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Page 39: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Ki Hogyan Nyelv Accuracy

Pang et al (2002)

SVM algoritmussal unigrammok felhasználásával IMDB weboldal filmkritikáinak elemzése angol 82,90%

Pang et al (2004)

Szubjektivitás osztályozással majd Naiv Bayes módszerrel megvalósított hierarchikus osztályozással IMDB weboldal filmkritikáinak elemzése angol 86,40%

Hatzivassiloglu és

McKeown(Szaszkó et al,2009 alapján)

Szótár alapú módszerrel a szövegekben lévő melléknevek orientációja alapján becsülték meg dokumentumok orientációját angol 78%

Neticle

Szótár alapú módszerrel weboldalak szövegének véleményelemzése magyar 80,48%

Page 40: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Ki Hogyan Nyelv Accuracy

Berend és Farkas (2008)

C4.5 döntési fa algoritmussal kombinált fórum válaszolási gráfmegoldással népszavazásról alkotott vélemények osztályozása magyar 71,76%

Szaszkó et al (2009)

240 magyar nyelvű filmkritika pozitív negatív osztályozása ún. robosztus kockázat minimalizálás elven alapuló osztályozással. magyar 76%

Baseline pontosság

Ha minden mondatot, a leggyakoribb, a semleges kategóriába sorolunk magyar 58,71%

NeticleSzótár alapú módszerrel weboldalak

szövegének véleményelemzése magyar 80,48%

Page 41: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Page 42: Neticle bce om_preso_20121113

www.neticle.huBudapest, 2012.11.13.

Érdeklődőknek ajánlott:

Tikk, D. [2007]: Szövegbányászat, Typotex Elektronikus Kiadó Kft, Budapest

Liu, B. [2011]: Sentiment Analysis Tutorial. AAAI-2011 Conference, San Francisco, USA. (letölthető:, utoljára letöltve: http://www.cs.uic.edu/~liub/FBS/Sentiment-Analysis-tutorial-AAAI-2011.pdf, 2012. április 19-én)

Miháltz Márton [2010]: OpinHu: online szövegek többnyelvű véleményelemzése, VII. Magyar Számítógépes Nyelvészeti Konferencia

Berend, G., Farkas, R. [2008]: Opinion Mining in Hungarian based on textual and graphical clues, in Proceedings of the 4th Intern. Symposium on Data Mining and Intelligent Information Processing, Santander, 2008.