Click here to load reader

Universidade Nova de Lisboa Faculdade de Ciências e ... · PDF file CDD Classificação Decimal de Dewey CDU Classificação Decimal Universal FP Falsos Positivos GR Gain Ratio IG

  • View
    218

  • Download
    0

Embed Size (px)

Text of Universidade Nova de Lisboa Faculdade de Ciências e ... · PDF file CDD...

Dissertao apresentada na Faculdade de Cincias e Tecnologia da Universidade No

Lisboa para obteno de grau de Mestre em Engenharia de Informtica

Orientador: Professor Doutor Jos Gabriel Pereira Lopes

0

Universidade Nova de Lisboa

Faculdade de Cincias e Tecnologia

Departamento de Informtica

Classificao de Documentos

Por

Filipa Alexandra Peleja Madureira 28034

Dissertao apresentada na Faculdade de Cincias e Tecnologia da Universidade No

Lisboa para obteno de grau de Mestre em Engenharia de Informtica

Orientador: Professor Doutor Jos Gabriel Pereira Lopes

Lisboa

2009

Dissertao apresentada na Faculdade de Cincias e Tecnologia da Universidade Nova de

Lisboa para obteno de grau de Mestre em Engenharia de Informtica

Orientador: Professor Doutor Jos Gabriel Pereira Lopes

1

2

Dedicatria

minha me, Elisabete Peleja.

Ao meu pai, Henrique Madureira.

s minhas irms, Joana e Rute.

Ao meu P.

minha Kishinha.

Dedicatria

3

4

Agradecimentos

A todos os que fiz meno na dedicatria, pela pacincia e apoio enquanto este trabalho foi

realizado. Em especial para a minha me.

minha Kisha que sempre me acalmou nos momentos mais difceis.

Agradecimentos ao Professor Doutor Gabriel Pereira Lopes por toda a ajuda, e incentivo,

disponibilizada.

Agradecimentos

5

6

Resumo

No presente trabalho de investigao pretende-se automatizar o processo de classificao

temtica de documentos. Foram utilizadas trs tcnicas de seleco de termos, com trs

classificadores automticos, e sete representaes de documentos: palavra, multi-palavra,

pentagrama, e cadeias dos primeiros 4, 5 e 6 caracteres individualmente, e globalmente.

Entre as tcnicas de seleco de termos encontra-se a medida do Terceiro Momento em relao

mdia. Esta medida foi recentemente proposta, por o Professor Joaquim Ferreira da Silva, e

considerou-se importante realizar um estudo comparativo da sua performance em relao a outras

medidas, j muito conhecidas e comprovada a sua aplicabilidade. As medidas escolhidas foram:

Chi-Square e Information Gain.

Existem medidas de seleco de termos que demonstram melhores resultados conforme o

classificador utilizado, e por isso, as medidas foram experimentadas com diferentes

classificadores: K-Nearest Neighbour, RIPPER e Support Vector Machines. So classificadores

que na rea de classificao demonstraram bons resultados, e assim, avaliou-se o seu desempenho

com as diferentes medidas de seleco de termos.

Nos resultados experimentais, em que foi utilizado o corpus da Reuters-21578, pode-se observar

que o desempenho obtido com a tcnica do terceiro momento superior, ou equivalente, obtida

com as medidas de seleco de termos Chi-Square e Information Gain.

Utilizando diferentes representaes de documentos possvel obter um desempenho, com os trs

classificadores, equivalente ao obtido com a representao de documentos por palavra.

Resumo

7

8

Abstract

This work of investigation aims to automate the process of thematic classification of documents.

Three techniques of features selection will be used, with three classifiers automatic and seven

representations of documents: word; multi-word; pentagram; and a chain of the first 4, 5 and 6

characters individually and globally.

Among the techniques of features selection there is the Third Moment in relation to the average.

This measure has been recently proposed by Professor Joaquim Ferreira da Silva and it is

important to conduct a comparative study of its performance in relation to other measures already

very well known, whose applicability has also been attested. The chosen measures were Chi-

Square and Information Gain.

There are measures of features selection that demonstrate better results according to the classifier

used and therefore measures with different classifiers will be studied: K-Nearest Neighbour,

RIPPER and Support Vector Machines. These are classifiers which in the field of classification

demonstrate good results having in mind the evaluation of their performance towards the

different measures of features selection.

The Corpus Reuters-21578 was used in the experimental results allowing us to observe that the

performance obtained by the third moment technique is higher or equivalent to the one obtained

by the others measures of terms selection.

Using different representations of documents it is possible to obtain a performance with the three

classifiers equivalent to the one obtained by the representation of documents by word.

Abstract

9

ndice

10

ndice

Dedicatria .................................................................................................................................................... 2

Agradecimentos ............................................................................................................................................. 4

Resumo .......................................................................................................................................................... 6

Abstract ......................................................................................................................................................... 8

ndice ........................................................................................................................................................... 10

ndice de Figuras .......................................................................................................................................... 14

ndice de Tabelas ......................................................................................................................................... 16

Glossrio de Termos .................................................................................................................................... 18

Introduo ................................................................................................................................................... 20

1.1. Motivao ......................................................................................................................................... 24

1.2. Soluo apresentada ........................................................................................................................ 28

1.3. Principais contribuies .................................................................................................................... 34

Trabalho relacionado ................................................................................................................................... 36

2.1. Representao computacional dos documentos ............................................................................. 36

2.2. Reduo da Dimensionalidade do Corpus ........................................................................................ 40

2.2.1. Term Frequency ......................................................................................................................... 44

2.2.2. Relative Frequency ..................................................................................................................... 45

2.2.3. Inverse Document Frequency..................................................................................................... 45

2.2.4. Term Frequency Inverse Document Frequency .......................................................................... 46

2.2.5. Chi-square .................................................................................................................................. 46

2.2.6. Odds ratio .................................................................................................................................. 47

2.2.7. Information Gain ....................................................................................................................... 48

2.2.8. Gain Ratio .................................................................................................................................. 49

2.2.9. Mutual Information ................................................................................................................... 49

2.2.10. Term Strength .......................................................................................................................... 50

ndice

11

2.2.11. GSS coeficiente ......................................................................................................................... 51

2.2.12. Terceiro Momento em relao mdia .................................................................................. 52

2.3. Agrupamento vs Classificao .......................................................................................................... 54

2.4. Algoritmos de Agrupamento ............................................................................................................ 55

2.4.1. Agrupamento hierrquico .......................................................................................................... 56

2.4.3. K-means ..

Search related