M´etodos para Classifica¸c˜ao de Texto de Etiqueta...

Preview:

Citation preview

Metodos para Classificacao de Texto de Etiqueta Unica

(Improving Methods for Single-label Text Categorization)

Ana Cardoso Cachopo

Instituto Superior Tecnico — Universidade Tecnica de Lisboa / INESC-ID

8 de Outubro de 2007

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 1 / 38

Estrutura

Estrutura

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 2 / 38

Introducao

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 3 / 38

Introducao

Introducao e Objectivos

Introducao

Classificacao de Texto

Documentos de Etiqueta Unica

Classificacao Semi-supervisionada

Objectivos

Melhorar a qualidade dos resultados atraves da combinacao declassificadores.

Reduzir a quantidade de dados pre-processados que e necessariaatraves da utilizacao de documentos nao etiquetados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 4 / 38

Introducao

Introducao e Objectivos

Introducao

Classificacao de Texto

Documentos de Etiqueta Unica

Classificacao Semi-supervisionada

Objectivos

Melhorar a qualidade dos resultados atraves da combinacao declassificadores.

Reduzir a quantidade de dados pre-processados que e necessariaatraves da utilizacao de documentos nao etiquetados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 4 / 38

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Introducao Classificacao de Texto

Peso dos Termos dos Documentos

Os documentos sao representados por vectores p-dimensionais.

Os termos sao pesados de acordo com a sua importancia.

Pesos binariostfidf

wij =freqij

maxl(freqlj)× log

|D|nti

tdwtdijk = wij × icsdα

i × csdβik × sdγ

i

Os vectores sao normalizados para terem comprimento unitario.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 5 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Ter

mo1

Termo2

Doc2

Doc1

Query

αβ sim(

−→dj ,

−→q ) =

−→dj · −→q

||−→dj || × ||−→q ||

Considera a semelhanca entre os vectores que representam os documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Ter

mo1

Termo2

Doc2

Doc1

Query

αβ sim(

−→dj ,

−→q ) =

−→dj · −→q

||−→dj || × ||−→q ||

Considera a semelhanca entre os vectores que representam os documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Ter

mo1

Termo2

Doc2

Doc1

Query

αβ sim(

−→dj ,

−→q ) =

−→dj · −→q

||−→dj || × ||−→q ||

Considera a semelhanca entre os vectores que representam os documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Ter

mo1

Termo2

Doc2

Doc1

Query

αβ sim(

−→dj ,

−→q ) =

−→dj · −→q

||−→dj || × ||−→q ||

Considera a semelhanca entre os vectores que representam os documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 6 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Considera a classe do documento mais proximo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 7 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Considera a classe do documento mais proximo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 7 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Vector

Considera a classe do documento mais proximo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 7 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

k-NN

Considera os k vizinhos mais proximos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 8 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

k-NN

Considera os k vizinhos mais proximos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 8 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

Considera o centroide de cada classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 9 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

x

x

Considera o centroide de cada classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 9 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

x

x

Considera o centroide de cada classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 9 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

Sum: −→ck =∑

−→dj ∈Dck

−→dj

Average: −→ck =1

|Dck|·

∑−→dj ∈Dck

−→dj

NormSum: −→ck =1

‖∑−→dj ∈Dck

−→dj ‖

·∑

−→dj ∈Dck

−→dj

Rocchio: −→ck = β · 1

|Dck|·

∑−→dj ∈Dck

−→dj − γ · 1

|D − Dck|·

∑−→dj /∈Dck

−→dj

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

Sum: −→ck =∑

−→dj ∈Dck

−→dj

Average: −→ck =1

|Dck|·

∑−→dj ∈Dck

−→dj

NormSum: −→ck =1

‖∑−→dj ∈Dck

−→dj ‖

·∑

−→dj ∈Dck

−→dj

Rocchio: −→ck = β · 1

|Dck|·

∑−→dj ∈Dck

−→dj − γ · 1

|D − Dck|·

∑−→dj /∈Dck

−→dj

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

Sum: −→ck =∑

−→dj ∈Dck

−→dj

Average: −→ck =1

|Dck|·

∑−→dj ∈Dck

−→dj

NormSum: −→ck =1

‖∑−→dj ∈Dck

−→dj ‖

·∑

−→dj ∈Dck

−→dj

Rocchio: −→ck = β · 1

|Dck|·

∑−→dj ∈Dck

−→dj − γ · 1

|D − Dck|·

∑−→dj /∈Dck

−→dj

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Centroid

Sum: −→ck =∑

−→dj ∈Dck

−→dj

Average: −→ck =1

|Dck|·

∑−→dj ∈Dck

−→dj

NormSum: −→ck =1

‖∑−→dj ∈Dck

−→dj ‖

·∑

−→dj ∈Dck

−→dj

Rocchio: −→ck = β · 1

|Dck|·

∑−→dj ∈Dck

−→dj − γ · 1

|D − Dck|·

∑−→dj /∈Dck

−→dj

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 10 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Naive Bayes

P(ck |−→dj ) =

P(ck)P(−→dj |ck)

P(−→dj )

≈|T |∑i=1

wij logPik(1− Pik)

Pik(1− Pik)

Considera a probabilidade de um documento pertencer a uma determinadaclasse.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 11 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Naive Bayes

P(ck |−→dj ) =

P(ck)P(−→dj |ck)

P(−→dj )

≈|T |∑i=1

wij logPik(1− Pik)

Pik(1− Pik)

Considera a probabilidade de um documento pertencer a uma determinadaclasse.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 11 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

Naive Bayes

P(ck |−→dj ) =

P(ck)P(−→dj |ck)

P(−→dj )

≈|T |∑i=1

wij logPik(1− Pik)

Pik(1− Pik)

Considera a probabilidade de um documento pertencer a uma determinadaclasse.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 11 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

LSIp

Ter

mos

r Docs

p × r

=

p × c

T0

×

c × c

S0

×

c × r

D0

≈X

X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal

Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

LSIp

Ter

mos

r Docs

p × r

=

p × c

T0

×

c × c

S0

×

c × r

D0

≈X

X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal

Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

LSIp

Ter

mos

r Docs

p × r

=

p × c

T0

×

c × c

S0

×

c × r

D0

≈X

X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal

Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

LSIp

Ter

mos

r Docs

p × r

=

p × c

T0

×

c × c

S0

×

c × r

D0

≈X

X = T0S0D0 tal que T0 e D0 tem colunas ortonormais e S0 e diagonal

Usa Singular Value Decomposition para reduzir as dimensoes da matriz determos por documentos.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 12 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

SVM

Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

SVM

Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

SVM

Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

SVM

Determina o hiperplano com maiores margens entre duas classes.(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 13 / 38

Introducao Classificacao de Texto

Metodos de Classificacao

SVM

minimizar −n∑

i=1

αi +1

2

n∑i ,j=1

αiαjyiyj ∗ K (di , dj)

tal quen∑

i=1

αiyi = 0 e ∀iαi ≥ 0

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 14 / 38

Introducao Classificacao de Texto

Medidas de Avaliacao

Accuracy

Accuracy =#Documentos correctamente classificados

#Total de documentos

MRR

MRR(n) =

∑#Total queriesi=1 (( 1

ranki) or 0)

#Total queries

onde ranki e a posicao da primeira resposta correcta para o query i ,considerando as primeiras n classes retornadas pelo sistema.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 15 / 38

Introducao Classificacao de Texto

Medidas de Avaliacao

Accuracy

Accuracy =#Documentos correctamente classificados

#Total de documentos

MRR

MRR(n) =

∑#Total queriesi=1 (( 1

ranki) or 0)

#Total queries

onde ranki e a posicao da primeira resposta correcta para o query i ,considerando as primeiras n classes retornadas pelo sistema.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 15 / 38

Ambiente Experimental

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 16 / 38

Ambiente Experimental

Conjuntos de Dados

Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe

Bank37 928 463 1391 5 346

20Ng 11293 7528 18821 628 999

R8 5485 2189 7674 51 3923

R52 6532 2568 9100 3 3923

Web4 2803 1396 4199 504 1641

Cade12 27322 13661 40983 625 8473

Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38

Ambiente Experimental

Conjuntos de Dados

Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe

Bank37 928 463 1391 5 346

20Ng 11293 7528 18821 628 999

R8 5485 2189 7674 51 3923

R52 6532 2568 9100 3 3923

Web4 2803 1396 4199 504 1641

Cade12 27322 13661 40983 625 8473

Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38

Ambiente Experimental

Conjuntos de Dados

Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe

Bank37 928 463 1391 5 346

20Ng 11293 7528 18821 628 999

R8 5485 2189 7674 51 3923

R52 6532 2568 9100 3 3923

Web4 2803 1396 4199 504 1641

Cade12 27322 13661 40983 625 8473

Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38

Ambiente Experimental

Conjuntos de Dados

Docs Docs Total Menor MaiorTreino Teste Docs Classe Classe

Bank37 928 463 1391 5 346

20Ng 11293 7528 18821 628 999

R8 5485 2189 7674 51 3923

R52 6532 2568 9100 3 3923

Web4 2803 1396 4199 504 1641

Cade12 27322 13661 40983 625 8473

Numeros de documentos para os conjuntos de dados: numero dedocumentos de treino, numero de documentos de teste, numero total dedocumentos, numero de documentos na menor classe, e numero dedocumentos na maior classe.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 17 / 38

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Ambiente Experimental

IREP

Pre-processa os documentos e passa-os para os metodos.

Usa as mesmas medidas de avaliacao com todos os metodos.

Permite uma facil incorporacao de novos metodos.

Permite uma facil combinacao dos metodos existentes.

Permite uma facil mudanca dos parametros para cada metodo.

Pode ser chamado repetidamente a partir de uma shell.

Produz resultados num formato compreensıvel.

IREP

e uma ferramenta computacional altamente configuravel, que pode serusada para fazer experiencias com metodos existentes e facilmenteestendida para incorporar novos metodos, medidas de avaliacao econjuntos de dados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 18 / 38

Comparacao dos Metodos Existentes

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 19 / 38

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

Centroid

SVMN-Bayes

k-NN

LSI

Vector

Valores de Accuracy para os seis conjuntos de dados usando cada metodode classificacao.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 20 / 38

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

Dos varios metodos baseados em centroides, C-NormSum e o melhor.

A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.

C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.

Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

Dos varios metodos baseados em centroides, C-NormSum e o melhor.

A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.

C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.

Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

Dos varios metodos baseados em centroides, C-NormSum e o melhor.

A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.

C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.

Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38

Comparacao dos Metodos Existentes

Desempenho dos Metodos Existentes

Dos varios metodos baseados em centroides, C-NormSum e o melhor.

A qualidade dos resultados obtidos com C-NormSum e quase tao boacomo a obtida com SVM, e melhor do que com Vector e k-NN.

C-NormSum apresenta uma boa relacao entre o tempo gasto emtreino e teste e a qualidade dos resultados obtidos.

Usar tfidf para calcular os pesos dos termos dos documentos egeralmente melhor do que usar td .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 21 / 38

Combinacoes entre Metodos

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 22 / 38

Combinacoes entre Metodos

Metodos de Classificacao Existentes

Espaco de termosp dimensional

Espaco de conceitoss << p dimensional

LSI

SVM

k-NN

VectorSimilaridade do Coseno

k-NN + Similaridade do Coseno

Kernel + Estrategia de Votacao

SVD Similaridade do Coseno

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 23 / 38

Combinacoes entre Metodos

Metodos de Classificacao Existentes

Espaco de termosp dimensional

Espaco de conceitoss << p dimensional

LSI

SVM

k-NN

VectorSimilaridade do Coseno

k-NN + Similaridade do Coseno

Kernel + Estrategia de Votacao

SVD Similaridade do Coseno

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 23 / 38

Combinacoes entre Metodos

Metodos de Classificacao Existentes

Espaco de termosp dimensional

Espaco de conceitoss << p dimensional

LSI

SVM

k-NN

VectorSimilaridade do Coseno

k-NN + Similaridade do Coseno

Kernel + Estrategia de Votacao

SVD Similaridade do Coseno

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 23 / 38

Combinacoes entre Metodos

Combinacoes com LSI

Espaco de termosp dimensional

Espaco de conceitoss << p dimensional

SVD

k-NN-LSI

SVM-LSI

k-NN + Similaridade do Coseno

Kernel + Estrategia de Votacao

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 24 / 38

Combinacoes entre Metodos

Combinacoes com LSI

Espaco de termosp dimensional

Espaco de conceitoss << p dimensional

SVD

k-NN-LSI

SVM-LSI

k-NN + Similaridade do Coseno

Kernel + Estrategia de Votacao

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 24 / 38

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

0.0

0.2

0.4

0.6

0.8

1.0

Bank37 20Ng R8 R52 Web4 Cade12

k-NN

SVM

LSI

k-NN-LSI

SVM-LSI

Valores de Accuracy para os seis conjuntos de dados usando cada metodo.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 25 / 38

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

k-NN-LSI implica uma pequena alteracao relativamente a LSI eapresenta melhores resultados do que k-NN e LSI.

SVM-LSI e melhor do que SVM na media dos varios conjuntos dedados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 26 / 38

Combinacoes entre Metodos

Desempenho das Combinacoes entre Metodos

k-NN-LSI implica uma pequena alteracao relativamente a LSI eapresenta melhores resultados do que k-NN e LSI.

SVM-LSI e melhor do que SVM na media dos varios conjuntos dedados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 26 / 38

Utilizacao de Documentos Nao Etiquetados

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 27 / 38

Utilizacao de Documentos Nao Etiquetados

Utilizacao de Documentos Nao Etiquetados

Quando usar documentos nao etiquetados:

Quando existem pequenas quantidades de documentos etiquetados.

Quando existem muitos documentos nao etiquetados.

Quando e difıcil ou “caro” classificar mais documentos.

Como incorporar a informacao dos documentos nao etiquetados:

Usando EM.

Incrementalmente.

Porque usar um metodo baseado em centroides:

Porque e rapido.

Porque tem uma boa Accuracy.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 28 / 38

Utilizacao de Documentos Nao Etiquetados

Utilizacao de Documentos Nao Etiquetados

Quando usar documentos nao etiquetados:

Quando existem pequenas quantidades de documentos etiquetados.

Quando existem muitos documentos nao etiquetados.

Quando e difıcil ou “caro” classificar mais documentos.

Como incorporar a informacao dos documentos nao etiquetados:

Usando EM.

Incrementalmente.

Porque usar um metodo baseado em centroides:

Porque e rapido.

Porque tem uma boa Accuracy.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 28 / 38

Utilizacao de Documentos Nao Etiquetados

Utilizacao de Documentos Nao Etiquetados

Quando usar documentos nao etiquetados:

Quando existem pequenas quantidades de documentos etiquetados.

Quando existem muitos documentos nao etiquetados.

Quando e difıcil ou “caro” classificar mais documentos.

Como incorporar a informacao dos documentos nao etiquetados:

Usando EM.

Incrementalmente.

Porque usar um metodo baseado em centroides:

Porque e rapido.

Porque tem uma boa Accuracy.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 28 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Usando EM

Se todo o conjunto de dados esta disponıvel desde o inıcio, como numabiblioteca.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Estimacao: Para cada documento nao etiquetado dj ∈ U, classifica-lo deacordo com os centroides disponıveis.Maximizacao: Para cada classe cj , actualizar o seu centroide −−→cjnew ,considerando os documentos etiquetados e as etiquetas para osdocumentos nao etiquetados obtidas no passo anterior.Iterar: Ate que os centroides nao mudem em duas iteracoes consecutivas.Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 29 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Utilizacao de Documentos Nao Etiquetados

Incorporar a Informacao Incrementalmente

Se o conjunto de dados muda ao longo do tempo, como uma linha denotıcias ou na internet.

Entradas: Um conjunto de documentos etiquetados, L, e um conjunto dedocumentos nao etiquetados U.Inicializacao: Para cada classe cj que apareca em L, determinar ocentroide da classe −→cj , usando uma das formulas para os centroides econsiderando apenas os documentos etiquetados.Iterar: Para cada documento nao etiquetado dj ∈ U:

Classificar dj de acordo com a sua semelhanca a cada um doscentroides.

Actualizar os centroides com o novo documento dj classificado nopasso anterior.

Saıdas: Para cada classe cj , o centroide −→cj .

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 30 / 38

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

0.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

0 5 10 15 20 25 30 35 40

Acc

ura

cy

Documentos etiquetados para cada classe

R8

CentroidC-EMC-Inc

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 31 / 38

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0 10 20 30 40 50 60 70

Acc

ura

cy

Documentos etiquetados para cada classe

20Ng

CentroidC-EMC-Inc

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 32 / 38

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0 10 20 30 40 50 60 70

Acc

ura

cy

Documentos etiquetados para cada classe

Web4

CentroidC-EMC-Inc

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 33 / 38

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 10 20 30 40 50 60 70

Acc

ura

cy

Documentos etiquetados para cada classe

Cade12

CentroidC-EMC-Inc

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 34 / 38

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

A incorporacao dos documentos nao etiquetados usando C-EM e emgeral melhor do que incrementalmente, em especial quando ha poucosdocumentos etiquetados para cada classe.

Se o modelo inicial dos dados for suficientemente preciso, usardocumentos nao etiquetados melhora os resultados.

Se o modelo inicial dos dados nao for suficientemente preciso, usardocumentos nao etiquetados piora os resultados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 35 / 38

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

A incorporacao dos documentos nao etiquetados usando C-EM e emgeral melhor do que incrementalmente, em especial quando ha poucosdocumentos etiquetados para cada classe.

Se o modelo inicial dos dados for suficientemente preciso, usardocumentos nao etiquetados melhora os resultados.

Se o modelo inicial dos dados nao for suficientemente preciso, usardocumentos nao etiquetados piora os resultados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 35 / 38

Utilizacao de Documentos Nao Etiquetados

Desempenho da Utilizacao de Docs Nao Etiquetados

A incorporacao dos documentos nao etiquetados usando C-EM e emgeral melhor do que incrementalmente, em especial quando ha poucosdocumentos etiquetados para cada classe.

Se o modelo inicial dos dados for suficientemente preciso, usardocumentos nao etiquetados melhora os resultados.

Se o modelo inicial dos dados nao for suficientemente preciso, usardocumentos nao etiquetados piora os resultados.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 35 / 38

Contribuicoes

Outline

1 Introducao

2 Ambiente Experimental

3 Comparacao dos Metodos Existentes

4 Combinacoes entre Metodos

5 Utilizacao de Documentos Nao Etiquetados

6 Contribuicoes

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 36 / 38

Contribuicoes

Contribuicoes Principais

Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.

Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.

Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.

Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.

Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38

Contribuicoes

Contribuicoes Principais

Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.

Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.

Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.

Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.

Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38

Contribuicoes

Contribuicoes Principais

Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.

Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.

Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.

Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.

Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38

Contribuicoes

Contribuicoes Principais

Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.

Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.

Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.

Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.

Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38

Contribuicoes

Contribuicoes Principais

Desenvolvimento de uma ferramenta altamente configuravel parafazer experiencias com varios metodos de classificacao.

Comparacao exaustiva de 13 metodos de classificacao usando 4coleccoes de dados standard e uma criada para este trabalho.

Proposta de dois novos metodos de classificacao que correspondem acombinacao de metodos existentes.

Proposta de dois algoritmos para incorporar documentos naoetiquetados num metodo baseado em centroides usando EM eincrementalmente.

Estudo empırico de quando e que se devem usar documentos naoetiquetados com um metodo baseado em centroides.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 37 / 38

Obrigada.

(IST-UTL/INESC-ID) Ana Cardoso Cachopo 8 de Outubro de 2007 38 / 38

Recommended