22
Pedro Oliveira [email protected]

Pedro Oliveira [email protected]/reports/sigc_stemming.pdf · Radicalização em Inglês ... recuperados utilizando quaisquer uma das suas formas ... plurais irregulares

  • Upload
    lamhanh

  • View
    225

  • Download
    0

Embed Size (px)

Citation preview

O que é a radicalização Aplicações Radicalização em Inglês Radicalização em Português

Experiência com algoritmos para o Português

Vantagens e Desvantagens

2

Processo de reduzir variações de uma mesma palavra a uma representação única: o radical

Normalmente executado através da remoção de afixos (sufixos e prefixos) de uma palavra

Exemplo

problemáticos, problematização, problemas -> problem

3

O objectivo é chegar a um radical que permita capturar uma palavra com generalidade suficiente, sem perder muito detalhe ou informação

O objectivo não é ser um exercício linguístico, que tenha de seguir regras linguísticas complexas

O que interessa é que funcione!

4

Recuperação de Informação

Garantir que documentos indexados com diferentes formas da mesma palavra possam ser recuperados utilizando quaisquer uma das suas formas

Permitir a expansão da query utilizando outras formas da mesma palavra

Ex:

▪ Pesquisar no Google por Smoking Detector

5

Sistemas de Resposta (Q&A)

Basta criar regras básicas de comunicação, não sendo necessário guardar todo o vocabulário existente

Ex:

▪ “* cust um bilhete de avião”▪ Quanto custa um bilhete de avião

▪ Quanto me vai custar um bilhete de avião

▪ Qual o custo de um bilhete de avião

6

Onde tudo começou… Lovins Stemmer (1968)

Composto por 249 sufixos, 29 condições e 35 regras de transformação

Lida com letras duplicadas (sitting->sitt->sit), plurais irregulares (matrix e matrices) e algumas palavras irregulares (commit e commission)

Execução muito rápida, mas pouco abrangente

7

Porter Stemmer (1980)

Stemmer mais famoso e utilizado

Mais simples e completo que Lovins

Algoritmo com passos definidos, onde em cada fase a palavra é comparada sequencialmente com o maior sufixo presente

▪ Caso este seja encontrado, o mesmo é removido ou substituído

8

Porter Stemmer (1980)

Ex:

▪ Passo 1a▪ sses ->ss (caresses-> caress)

▪ ies -> i (ponies -> poni)

▪ s -> (cats -> cat)

▪ Passo 1b▪ (m>1) eed -> ee (agreed -> agree)

▪ (*v*) ed -> (plastered -> plaster)

9

Campo muito pouco explorado Orengo (2001)

Primeira versão amplamente divulgada de um algoritmo de radicalização para a língua portuguesa

Constituído por 199 regras distribuídas por 8 passos

Utilização de lista de excepções

10

11

Sufixo TamanhoMin. Substituição Excepções Exemplo

tivo 4 relativo contraceptivo -> contracep

edor 3 entendedor -> entend

quice 4 c maluquice -> maluc

12

Pegastemming (2003)

Algoritmo pouco divulgado

Remoção simples de sufixos comuns, sem se preocupar com artigos, preposições ou conjunções

Sem aplicação prática conhecida

13

Porter (2005)

Adaptação do algoritmo em Inglês para o Português

Constituído por 5 passos sequenciais▪ Remoção de sufixos (precisamente>precisa)

▪ Remoção de sufixos verbais (partirem->part)

▪ Remoção do sufixo i se precedido de c (estabeleci->estabelec)

▪ Remoção de sufixos residuais os, a, i, o, á, í, ó (presos->pres)

▪ Remoção dos sufixos e, ê, é e tratamento de cedilhas (pré->pr)

14

Desenvolvimento de aplicação em Java Algoritmos implementados

Orengo

Porter

Código aberto disponível brevemente

15

Anotado manualmente o radical de 30 palavras aleatórias disponíveis no corpus da Linguateca

10 adjectivos

10 verbos

10 advérbios

16

Medidas de desempenho

Overstemming

▪ Quando é removido não só o sufixo, mas também uma parte do radical

Understemming

▪ Quando o sufixo não é removido, ou é apenas removido parcialmente

17

Resultados

18

Número Acertos OverStemming UnderStemming Concordância

Orengo Porter Orengo Porter Orengo Porter Acertos Erros

Adjectiv

os 10 7 7 1 2 2 1 5 1

Verbos 10 8 8 2 2 0 0 8 2

Advérbi

os 10 7 7 2 3 1 0 5 1

Total 30 22 22 5 7 3 1 18 4

Vantagens

Aumenta o recall das aplicações

Permite reduzir o tamanho dos índices de indexação

19

Desvantagens

Palavra deve de estar gramaticalmente correcta, senão pode ocorrer erros na radicalização

Existência de palavras com múltiplos sentidos (polissemia)

Incapacidade de abarcar todo o léxico de uma linguagem

20

Desvantagens

Necessidade de uma análise semântica antes de efectuar a radicalização (tokenização, etc)

Necessidade de detectar nomes e outras formas verbais que não podem ser radicalizados

21

Questões?

[email protected]

22