Click here to load reader
View
218
Download
0
Embed Size (px)
Dissertao apresentada na Faculdade de Cincias e Tecnologia da Universidade No
Lisboa para obteno de grau de Mestre em Engenharia de Informtica
Orientador: Professor Doutor Jos Gabriel Pereira Lopes
0
Universidade Nova de Lisboa
Faculdade de Cincias e Tecnologia
Departamento de Informtica
Classificao de Documentos
Por
Filipa Alexandra Peleja Madureira 28034
Dissertao apresentada na Faculdade de Cincias e Tecnologia da Universidade No
Lisboa para obteno de grau de Mestre em Engenharia de Informtica
Orientador: Professor Doutor Jos Gabriel Pereira Lopes
Lisboa
2009
Dissertao apresentada na Faculdade de Cincias e Tecnologia da Universidade Nova de
Lisboa para obteno de grau de Mestre em Engenharia de Informtica
Orientador: Professor Doutor Jos Gabriel Pereira Lopes
1
2
Dedicatria
minha me, Elisabete Peleja.
Ao meu pai, Henrique Madureira.
s minhas irms, Joana e Rute.
Ao meu P.
minha Kishinha.
Dedicatria
3
4
Agradecimentos
A todos os que fiz meno na dedicatria, pela pacincia e apoio enquanto este trabalho foi
realizado. Em especial para a minha me.
minha Kisha que sempre me acalmou nos momentos mais difceis.
Agradecimentos ao Professor Doutor Gabriel Pereira Lopes por toda a ajuda, e incentivo,
disponibilizada.
Agradecimentos
5
6
Resumo
No presente trabalho de investigao pretende-se automatizar o processo de classificao
temtica de documentos. Foram utilizadas trs tcnicas de seleco de termos, com trs
classificadores automticos, e sete representaes de documentos: palavra, multi-palavra,
pentagrama, e cadeias dos primeiros 4, 5 e 6 caracteres individualmente, e globalmente.
Entre as tcnicas de seleco de termos encontra-se a medida do Terceiro Momento em relao
mdia. Esta medida foi recentemente proposta, por o Professor Joaquim Ferreira da Silva, e
considerou-se importante realizar um estudo comparativo da sua performance em relao a outras
medidas, j muito conhecidas e comprovada a sua aplicabilidade. As medidas escolhidas foram:
Chi-Square e Information Gain.
Existem medidas de seleco de termos que demonstram melhores resultados conforme o
classificador utilizado, e por isso, as medidas foram experimentadas com diferentes
classificadores: K-Nearest Neighbour, RIPPER e Support Vector Machines. So classificadores
que na rea de classificao demonstraram bons resultados, e assim, avaliou-se o seu desempenho
com as diferentes medidas de seleco de termos.
Nos resultados experimentais, em que foi utilizado o corpus da Reuters-21578, pode-se observar
que o desempenho obtido com a tcnica do terceiro momento superior, ou equivalente, obtida
com as medidas de seleco de termos Chi-Square e Information Gain.
Utilizando diferentes representaes de documentos possvel obter um desempenho, com os trs
classificadores, equivalente ao obtido com a representao de documentos por palavra.
Resumo
7
8
Abstract
This work of investigation aims to automate the process of thematic classification of documents.
Three techniques of features selection will be used, with three classifiers automatic and seven
representations of documents: word; multi-word; pentagram; and a chain of the first 4, 5 and 6
characters individually and globally.
Among the techniques of features selection there is the Third Moment in relation to the average.
This measure has been recently proposed by Professor Joaquim Ferreira da Silva and it is
important to conduct a comparative study of its performance in relation to other measures already
very well known, whose applicability has also been attested. The chosen measures were Chi-
Square and Information Gain.
There are measures of features selection that demonstrate better results according to the classifier
used and therefore measures with different classifiers will be studied: K-Nearest Neighbour,
RIPPER and Support Vector Machines. These are classifiers which in the field of classification
demonstrate good results having in mind the evaluation of their performance towards the
different measures of features selection.
The Corpus Reuters-21578 was used in the experimental results allowing us to observe that the
performance obtained by the third moment technique is higher or equivalent to the one obtained
by the others measures of terms selection.
Using different representations of documents it is possible to obtain a performance with the three
classifiers equivalent to the one obtained by the representation of documents by word.
Abstract
9
ndice
10
ndice
Dedicatria .................................................................................................................................................... 2
Agradecimentos ............................................................................................................................................. 4
Resumo .......................................................................................................................................................... 6
Abstract ......................................................................................................................................................... 8
ndice ........................................................................................................................................................... 10
ndice de Figuras .......................................................................................................................................... 14
ndice de Tabelas ......................................................................................................................................... 16
Glossrio de Termos .................................................................................................................................... 18
Introduo ................................................................................................................................................... 20
1.1. Motivao ......................................................................................................................................... 24
1.2. Soluo apresentada ........................................................................................................................ 28
1.3. Principais contribuies .................................................................................................................... 34
Trabalho relacionado ................................................................................................................................... 36
2.1. Representao computacional dos documentos ............................................................................. 36
2.2. Reduo da Dimensionalidade do Corpus ........................................................................................ 40
2.2.1. Term Frequency ......................................................................................................................... 44
2.2.2. Relative Frequency ..................................................................................................................... 45
2.2.3. Inverse Document Frequency..................................................................................................... 45
2.2.4. Term Frequency Inverse Document Frequency .......................................................................... 46
2.2.5. Chi-square .................................................................................................................................. 46
2.2.6. Odds ratio .................................................................................................................................. 47
2.2.7. Information Gain ....................................................................................................................... 48
2.2.8. Gain Ratio .................................................................................................................................. 49
2.2.9. Mutual Information ................................................................................................................... 49
2.2.10. Term Strength .......................................................................................................................... 50
ndice
11
2.2.11. GSS coeficiente ......................................................................................................................... 51
2.2.12. Terceiro Momento em relao mdia .................................................................................. 52
2.3. Agrupamento vs Classificao .......................................................................................................... 54
2.4. Algoritmos de Agrupamento ............................................................................................................ 55
2.4.1. Agrupamento hierrquico .......................................................................................................... 56
2.4.3. K-means ..