47
Etiketa-lainoen Ikuskera Hobetzeko Multzokatzea Informatikari Euskaldunen Bilkura ’09 Arkaitz Zubiaga Alberto P. Garc´ ıa-Plaza ıctor Fresno Raquel Mart´ ınez NLP & IR Group @ UNED 2009ko maiatzaren 7a

Etiketa-lainoen ikuskera hobetzeko multzokatzea

Embed Size (px)

DESCRIPTION

My presentation at IEB 2009 on May 7th, 2009 (in Basque language)

Citation preview

Etiketa-lainoen Ikuskera Hobetzeko MultzokatzeaInformatikari Euskaldunen Bilkura ’09

Arkaitz ZubiagaAlberto P. Garcıa-Plaza

Vıctor FresnoRaquel Martınez

NLP & IR Group @ UNED

2009ko maiatzaren 7a

Sarrera

Aurkibidea

1 Sarrera

2 Datuak Eskuratzea

3 Proposatutako Metodoa

4 Emaitzak

5 Ondorioak

6 Etorkizunerako Ildoak

7 Eskerrak

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 2 / 26

Sarrera

Etiketatze sinplea

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 3 / 26

Sarrera

Elkarlanean etiketatzea

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 4 / 26

Sarrera

Etiketa-lainoa

Antolaketa eza.

3 etiketa mota ezberdindu ohi dira:

Gaiari lotutako etiketak: programming.Etiketa subjektiboak: interesting.Etiketa pertsonalak: toread.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 5 / 26

Sarrera

Etiketa-lainoa

Antolaketa eza.

3 etiketa mota ezberdindu ohi dira:

Gaiari lotutako etiketak: programming.Etiketa subjektiboak: interesting.Etiketa pertsonalak: toread.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 5 / 26

Sarrera

Etiketa-lainoa

Antolaketa eza.

3 etiketa mota ezberdindu ohi dira:

Gaiari lotutako etiketak: programming.Etiketa subjektiboak: interesting.Etiketa pertsonalak: toread.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 5 / 26

Sarrera

Motibazioa

Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberakomultzokatzea. Ondorioz:

Ikuskera eta bilaketa erraztea.Modu errazean lotuta dauden etiketetara harpidetzea.

Aurreko lan batzuek etiketak batera agertzearen arabera egin dutehau.

Edukia kontuan hartu nahi dugu guk.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26

Sarrera

Motibazioa

Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberakomultzokatzea. Ondorioz:

Ikuskera eta bilaketa erraztea.

Modu errazean lotuta dauden etiketetara harpidetzea.

Aurreko lan batzuek etiketak batera agertzearen arabera egin dutehau.

Edukia kontuan hartu nahi dugu guk.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26

Sarrera

Motibazioa

Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberakomultzokatzea. Ondorioz:

Ikuskera eta bilaketa erraztea.Modu errazean lotuta dauden etiketetara harpidetzea.

Aurreko lan batzuek etiketak batera agertzearen arabera egin dutehau.

Edukia kontuan hartu nahi dugu guk.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26

Sarrera

Motibazioa

Antolaketa ezaren aurrean, etiketen arteko zerikusiaren araberakomultzokatzea. Ondorioz:

Ikuskera eta bilaketa erraztea.Modu errazean lotuta dauden etiketetara harpidetzea.

Aurreko lan batzuek etiketak batera agertzearen arabera egin dutehau.

Edukia kontuan hartu nahi dugu guk.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 6 / 26

Datuak Eskuratzea

Aurkibidea

1 Sarrera

2 Datuak Eskuratzea

3 Proposatutako Metodoa

4 Emaitzak

5 Ondorioak

6 Etorkizunerako Ildoak

7 Eskerrak

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 7 / 26

Datuak Eskuratzea

Datuak eskuratzea

Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,etiketa-lainoa).

Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,html eta pdf).

Datuak jaistea:

Dokumentu bakoitzaren etiketa-informazioa.Web dokumentuen edukia jaistea.

Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.

Emaitza: 144.574 dokumentu (balantzatu gabea).

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26

Datuak Eskuratzea

Datuak eskuratzea

Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,etiketa-lainoa).

Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,html eta pdf).

Datuak jaistea:

Dokumentu bakoitzaren etiketa-informazioa.Web dokumentuen edukia jaistea.

Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.

Emaitza: 144.574 dokumentu (balantzatu gabea).

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26

Datuak Eskuratzea

Datuak eskuratzea

Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,etiketa-lainoa).

Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,html eta pdf).

Datuak jaistea:

Dokumentu bakoitzaren etiketa-informazioa.Web dokumentuen edukia jaistea.

Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.

Emaitza: 144.574 dokumentu (balantzatu gabea).

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26

Datuak Eskuratzea

Datuak eskuratzea

Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,etiketa-lainoa).

Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,html eta pdf).

Datuak jaistea:

Dokumentu bakoitzaren etiketa-informazioa.Web dokumentuen edukia jaistea.

Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.

Emaitza: 144.574 dokumentu (balantzatu gabea).

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26

Datuak Eskuratzea

Datuak eskuratzea

Hasiera puntua: Deliciouseko 140 etiketa erabilienak (T140,etiketa-lainoa).

Etiketak monitorizatzea: ∼6.000 dokumentu/etiketa (∼840.000 dok.,html eta pdf).

Datuak jaistea:

Dokumentu bakoitzaren etiketa-informazioa.Web dokumentuen edukia jaistea.

Iragazpena: Ingelesezko dokumentuak, eta etiketa informaziodunak.

Emaitza: 144.574 dokumentu (balantzatu gabea).

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 8 / 26

Proposatutako Metodoa

Aurkibidea

1 Sarrera

2 Datuak Eskuratzea

3 Proposatutako Metodoa

4 Emaitzak

5 Ondorioak

6 Etorkizunerako Ildoak

7 Eskerrak

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 9 / 26

Proposatutako Metodoa

Adierazpena

Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez

Etiketa bakoitzeko dokumentuak bakarrean batzea.

Hitz hutsak.

Stemming.

TF-IDF (DF bidez moztuz).

1 bektore/etiketa.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26

Proposatutako Metodoa

Adierazpena

Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez

Etiketa bakoitzeko dokumentuak bakarrean batzea.

Hitz hutsak.

Stemming.

TF-IDF (DF bidez moztuz).

1 bektore/etiketa.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26

Proposatutako Metodoa

Adierazpena

Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez

Etiketa bakoitzeko dokumentuak bakarrean batzea.

Hitz hutsak.

Stemming.

TF-IDF (DF bidez moztuz).

1 bektore/etiketa.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26

Proposatutako Metodoa

Adierazpena

Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez

Etiketa bakoitzeko dokumentuak bakarrean batzea.

Hitz hutsak.

Stemming.

TF-IDF (DF bidez moztuz).

1 bektore/etiketa.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26

Proposatutako Metodoa

Adierazpena

Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez

Etiketa bakoitzeko dokumentuak bakarrean batzea.

Hitz hutsak.

Stemming.

TF-IDF (DF bidez moztuz).

1 bektore/etiketa.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26

Proposatutako Metodoa

Adierazpena

Dokumentu bakoitzeko etiketa esanguratsuenak: lehenaren %40,7gutxienez

Etiketa bakoitzeko dokumentuak bakarrean batzea.

Hitz hutsak.

Stemming.

TF-IDF (DF bidez moztuz).

1 bektore/etiketa.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 10 / 26

Proposatutako Metodoa

Multzokatzea (SOM)

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 11 / 26

Proposatutako Metodoa

Multzokatzearen konfigurazioa

12x12ko mapa: 144 multzo.

17.518 dimentsiotako bektoreak.

Ikasketa-tasa: 0,1.

Mugakidetasuna: 12.

Iterazioak: 50.000.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 12 / 26

Proposatutako Metodoa

Terminologia erauztea

Multzo bakoitzeko dokumentuak bateratu.

Multzo bakoitzeko terminologia erauzi.

Esanguratsua multzoan, baina ez gainontzekoetan.Lengoaia-ereduak (KLD, Kullback-Leibler Divergence).

Emaitza: Multzo bakoitzeko termino esanguratsuak.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 13 / 26

Emaitzak

Aurkibidea

1 Sarrera

2 Datuak Eskuratzea

3 Proposatutako Metodoa

4 Emaitzak

5 Ondorioak

6 Etorkizunerako Ildoak

7 Eskerrak

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 14 / 26

Emaitzak

Emaitzak

Mapa osoa ikusteko: http://nlp.uned.es/social-tagging/

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 15 / 26

Emaitzak

Emaitzak: Informatika

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 16 / 26

Emaitzak

Emaitzak: Diseinua

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 17 / 26

Emaitzak

Emaitzak: Sukaldaritza

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 18 / 26

Emaitzak

Emaitzak: Koherentzia

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 19 / 26

Emaitzak

Emaitzak: Terminologia

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 20 / 26

Ondorioak

Aurkibidea

1 Sarrera

2 Datuak Eskuratzea

3 Proposatutako Metodoa

4 Emaitzak

5 Ondorioak

6 Etorkizunerako Ildoak

7 Eskerrak

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 21 / 26

Ondorioak

Ondorioak

Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.

Datu-sorta eskuratu dugu.

Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.

Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.

Komunitateak aurkitzea ahalbidetzen du.

Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26

Ondorioak

Ondorioak

Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.

Datu-sorta eskuratu dugu.

Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.

Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.

Komunitateak aurkitzea ahalbidetzen du.

Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26

Ondorioak

Ondorioak

Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.

Datu-sorta eskuratu dugu.

Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.

Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.

Komunitateak aurkitzea ahalbidetzen du.

Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26

Ondorioak

Ondorioak

Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.

Datu-sorta eskuratu dugu.

Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.

Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.

Komunitateak aurkitzea ahalbidetzen du.

Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26

Ondorioak

Ondorioak

Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.

Datu-sorta eskuratu dugu.

Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.

Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.

Komunitateak aurkitzea ahalbidetzen du.

Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26

Ondorioak

Ondorioak

Etiketen multzokatzea eta dagozkien termino esanguratsuenenerauzketa aztertu ditugu.

Datu-sorta eskuratu dugu.

Aurreko lanek ez bezala, dokumentuen edukia kontuan hartu dugu.

Mapak emaitza interesgarriak erakusten ditu, erabiltzaileenetiketatzearen zentzuzkotasuna azalduz.

Komunitateak aurkitzea ahalbidetzen du.

Etiketa-lainoaren ikuskera errazten da, nabigazioa eta harpidetzahobetuz.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 22 / 26

Etorkizunerako Ildoak

Aurkibidea

1 Sarrera

2 Datuak Eskuratzea

3 Proposatutako Metodoa

4 Emaitzak

5 Ondorioak

6 Etorkizunerako Ildoak

7 Eskerrak

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 23 / 26

Etorkizunerako Ildoak

Etorkizunerako Ildoak

Gure metodoa etiketak batera agertzearen araberakoekin alderatu.

Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?).

Ingurune eleanitzetara egokitu.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26

Etorkizunerako Ildoak

Etorkizunerako Ildoak

Gure metodoa etiketak batera agertzearen araberakoekin alderatu.

Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?).

Ingurune eleanitzetara egokitu.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26

Etorkizunerako Ildoak

Etorkizunerako Ildoak

Gure metodoa etiketak batera agertzearen araberakoekin alderatu.

Etiketen analisi semantikoa (zein esanahi du kasu bakoitzean?).

Ingurune eleanitzetara egokitu.

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 24 / 26

Eskerrak

Aurkibidea

1 Sarrera

2 Datuak Eskuratzea

3 Proposatutako Metodoa

4 Emaitzak

5 Ondorioak

6 Etorkizunerako Ildoak

7 Eskerrak

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 25 / 26

Eskerrak

Eskerrak

Mila esker! Galderarik?http://blog.zubiaga.org

Arkaitz Zubiaga et al. (UNED) Etiketa-lainoen Multzokatzea (IEB ’09) 2009ko maiatzaren 7a 26 / 26