12
Recunoaşterea organizaţiilor în postările pe Tweeter Coordonator: Prof. Dr. Dan Cristea Dr . Diana Trandabăţ Absolvent: Elena-Oana Tăbăranu

Recunoasterea organizatiilor in postarile pe Tweeter

Embed Size (px)

DESCRIPTION

Sistemul descris în această lucrare clasifică o listă de postări pe Tweeter disponibile pentru o companie: postările sunt etichetate cu true dacă aparţin companiei respective sau cu false daca se referă la altceva. Primul pas creează un profil de companie pentru fiecare entitate din mai multe surse: conţinutul sitului web şi opțional termenii oferiţi de Google Sets. Al doilea pas analizează potrivirile dintre profil şi cuvintele din postările pe Tweeter, identificând astfel la ce companie se referă. Cele două module folosesc datele de antrenament disponibile în cadrul sarcinii a doua a competiţiei WePS Evaluation Workshop: Searching Information about Entities in the Web.

Citation preview

Page 1: Recunoasterea organizatiilor in postarile pe Tweeter

Recunoaşterea organizaţiilor înpostările pe Tweeter

Coordonator:Prof. Dr. Dan Cristea

Dr. Diana Trandabăţ

Absolvent:

Elena-Oana Tăbăranu

Page 2: Recunoasterea organizatiilor in postarile pe Tweeter

Introducere

• Twitter: sit web fondat în 2006 ce permite utilizatorilor săi să posteze mesaje scurte de maximum 140 de caractere

• 500.000 de conturi nou create pe zi şi 140 de milioane de postări zilnice în martie 2011 (Twitter, 2011)

• 19% dintre postări mentioneză un nume de companie sau produs: 50% conţin afirmaţii pozitive, 33% critică explicit(Jansen, 2009)

UAIC, Facultatea de Informatică 2

Page 3: Recunoasterea organizatiilor in postarile pe Tweeter

Descrierea sistemului

• Sistemul clasifică toate postarile disponibile pentru o companie a cărui nume este ambiguu: cele care se referă la organizaţia respectivă sunt identificate drept pozitive(true), iar cele care se referă la altceva drept negative (false).

• Exemplu:

UAIC, Facultatea de Informatică 3

Page 4: Recunoasterea organizatiilor in postarile pe Tweeter

Date de intrare

• Organizatorii competiţiei WePS Evaluation Workshop: Searching Information about Entities in the Web au pus la dispozitie 500 de nume şi 700 de postări pe Tweeter pentru fiecare companie în limba engleză, spaniolă sau ambele.

UAIC, Facultatea de Informatică 4

Page 5: Recunoasterea organizatiilor in postarile pe Tweeter

Module

1. Extragerea de profiluri ale companiilor

2. Clasificarea postărilor pe Tweeter

UAIC, Facultatea de Informatică 5

Page 6: Recunoasterea organizatiilor in postarile pe Tweeter

Extragerea de profiluri ale companiilor

Etape ale algoritmului:1. Extragerea paginii de acasă a sitului web al unei organizaţii

2. Extragerea de cuvinte cheie din cadrul paginii de acasă: titlu, metadate, antete, legături

3. Salvarea informaţiilor extrase (cele mai frecvente 25 de cuvinte)

4. Extensia profilului cu termeni oferiţi de Google Sets (opţional)

UAIC, Facultatea de Informatică 6

Page 7: Recunoasterea organizatiilor in postarile pe Tweeter

Clasificarea postărilor pe Tweeter

Etape ale algoritmului:1. Extragerea de informaţii pentru fiecare entitate de tip

postare: companie, identificator, limbă şi conţinut.

2. Calculează eticheta pentru fiecare postare (true sau false):

1. Curăţă postare.

2. Calculează similaritatea postării faţă de profil: potrivire simplă, distanţă Levenshtein, WordNet.

3. Salvează postările de tip true.

UAIC, Facultatea de Informatică 7

Page 8: Recunoasterea organizatiilor in postarile pe Tweeter

Rezultate (I)

UAIC, Facultatea de Informatică 8

Configuraţie F-measure

(alpha=0.5)

Precizie Recall

WordNet

Complet

0.14 0.65 0.15

WordNet Parţial 0.10 0.63 0.09

Potrivire simplă

şi Google Sets

0.08 0.62 0.07

Potrivire simplă 0.03 0.59 0.03

Page 9: Recunoasterea organizatiilor in postarile pe Tweeter

Rezultate (II)

UAIC, Facultatea de Informatică 9

runName query F-measure

(alpha=0.5)

precision recall numSampl

es

true_true true_false false_false false_true

WordNet

parţial

alcatel 0.38 0.38 0.38 481 173 287 10 7

WordNet

complet

alcatel 0.55 0.54 0.55 481 252 208 9 8

Potrivire

simplă

alcatel 0.26 0.27 0.25 481 115 345 16 1

Potrivire

simplă şi

Google Sets

alcatel 0.33 0.34 0.33 481 151 309 12 5

Page 10: Recunoasterea organizatiilor in postarile pe Tweeter

Concluzii

• În postările pe Tweeter ale unei organizaţii se regăsesc atât termeni rar întâlniţi în conţinutul paginii de acasă (nume şi produse ale firmelor concurente), cât şi cuvinte ce reprezintă concepte similare celor din profil.

• Sarcină de lucru dificilă: postările au puţine cuvinte, doar un context minimal este disponibil pentru a rezolva problema dezambiguizării entităţilor

UAIC, Facultatea de Informatică 10

Page 11: Recunoasterea organizatiilor in postarile pe Tweeter

Îmbunătăţiri

• Profilul unei companii poate conţine cuvinte din mai multe surse (Wikipedia, DBpedia)

• Etichetele pot avea ponderi diferite

• Postările identificate drept pozitive pentru o companie pot fi folosite drept corpus al unui sistem de analiză a sentimentelor

UAIC, Facultatea de Informatică 11

Page 12: Recunoasterea organizatiilor in postarile pe Tweeter

Bibliografie

• WePS 3: searching information about entities in the Web. [Interactiv] http://nlp.uned.es/weps/weps-3.

• Surender Reddy Yerva, Zoltan Miklos, and Karl Aberer. It was easy, when apples and blackberries were only fruits.

• Bootstrapping Websites for Classification of Organization Names on Twitter. Kalmar, Paul.

• M.A. Garcia-Cumbreras, M. Garcia-Vega, F. Martinez-Santiago and J.M. Peria-Ortega. SINAI at WEPS-3: Online Reputation Management ́.

• http://blog.twitter.com/2011/03/numbers.html. Twitter Blog. [Interactiv] • Twitter Power:Tweets as Electronic Word of Mouth. Bernard J. Jansen,

Mimi Zhang, Kate Sobel, Abdur Chowdury. s.l. : JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 2009, Vol. 60(11):2169–2188.

• The Anatomy of a Large-Scale Hypertextual. Page, Sergey Brin and Lawrence. s.l. : Computer Science Department, Stanford University, Stanford, CA 94305, USA, 1998.

UAIC, Facultatea de Informatică 12