Upload
trinhngoc
View
213
Download
0
Embed Size (px)
Citation preview
1
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Já Te Digo – Uma interface em língua naturalpara uma base de dados de cinema
Ana Raquel Guimarães
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
2L2 F - Spoken Language Systems Laboratory
EstruturaEstrutura
MotivaçãoO que é uma ILNBD?ObjectivoAnálise do problema
Fases de DesenvolvimentoRecolha do CorpusConstrução da base de dadosInterpretação da questão
AvaliaçãoTrabalho FuturoConclusões
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
3L2 F - Spoken Language Systems Laboratory
MotivaçãoMotivação (1/3)
Uma ILNBD (Interface em Língua Natural para uma Base de Dados):
É uma forma de obter informação a partir de uma base de dadosrecorrendo a língua natural.
Exemplos
Qual é a maior cidade de Portugal?Quantos óscares venceu Woody Allen?
Quem escreveu “A tia Júlia e o Escrevedor“?
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
4L2 F - Spoken Language Systems Laboratory
MotivaçãoMotivação (2/3)
ObjectivoDesenvolvimento de uma ILNBD que:
Dê respostas concisas e correctas ao utilizador;
Seja facilmente expansível, rápida e acessível;
Responda a questões cuja resposta não seja facilmente obtida em outrasinterfaces (Google, IMDB):
Quem entra em <filme1> e <filme2>?
Em que filmes entra <pessoa1> e <pessoa2>?
Resolva ambiguidade entre entidades (pessoas com o mesmo nome,filmes com o mesmo título);
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
5L2 F - Spoken Language Systems Laboratory
MotivaçãoMotivação (3/3)
Análise do problema
Que questões se podem fazer acerca de cinema?
Quem é o realizador / actor principal de <filme>?
Quem venceu o óscar de <categoria> em <ano>?
Em que filmes entra <pessoa>?
Que tipo de questões são mais frequentemente realizadas?
Como interpretar as questões?
Como reconhecer as entidades mencionadas nas questões formuladas?
Como “traduzir” questões em língua natural para SQL?
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
6L2 F - Spoken Language Systems Laboratory
FasesFases de de DesenvolvimentoDesenvolvimento
Recolha do corpus
Construção da base de dados
Interpretação da questão
Reconhecimento de Entidades Mencionadas
Desambiguação
Análise morfo/sintáctica/semântica
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
7L2 F - Spoken Language Systems Laboratory
RecolhaRecolha do do CorpusCorpus
Dimensão
150 questões realizadas por 10 pessoas;
Verificou-se que:
“Objectivo” das questões é, muito frequentemente, um nome de filme ou umnome de pessoa;
Exemplos de questões:
Quem é o herói do filme The Matrix?
Que filme realizaram os irmãos Wachowsky?
Que filme de animação teve como personagem principal um leão?
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
8L2 F - Spoken Language Systems Laboratory
FasesFases de de DesenvolvimentoDesenvolvimento
Recolha do corpus
Construção da base de dados
Interpretação da questão
Reconhecimento de Entidades Mencionadas
Desambiguação
Análise morfo/sintáctica/semântica
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
9L2 F - Spoken Language Systems Laboratory
ConstruçãoConstrução dada Base de Dados Base de Dados
Proveniência
IMDB – Internet Movie DataBase
Website da Academia dos Óscares
Website Cinema PTGate
Dados inseridos
Elenco dos filmes
Informação biográfica
Óscares da Academia (Melhor Filme e Filme Estrangeiro, representação,Melhor Realizador)
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
10L2 F - Spoken Language Systems Laboratory
ConstruçãoConstrução dada Base de Dados Base de Dados
Processamento dos dados
Ficheiros de texto de elevadas dimensões processados através descripts em Perl;
Dificuldades
Formato dos dados nem sempre respeitado;
Diferentes “fornecedores” causa incoerência entre dados (personagenscom nomes diferentes, ex: Lt. Col. Frank Slade e Lieutenant ColonelFrank Slade);
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
11L2 F - Spoken Language Systems Laboratory
ConstruçãoConstrução dada Base de Dados Base de Dados
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
12L2 F - Spoken Language Systems Laboratory
EstruturaEstrutura
Recolha do corpus
Construção da base de dados
Interpretação da questão
Reconhecimento de Entidades Mencionadas
Desambiguação
Análise morfo/sintáctica
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
13L2 F - Spoken Language Systems Laboratory
InterpretaçãoInterpretação dada QuestãoQuestão
Plano
Utilização de um analisador morfo/sintáctico
Criar regras de dependência para detecção de padrões
Utilizar uma linguagem de representação intermédia baseada empredicados
Realizador(x) – Realizador(“A Casa dos Espíritos”)
Contracena(x,y) – Contracena(“Meg Ryan”, “A cidade dos anjos”)
Realização de queries SQL para obtenção da resposta
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
14L2 F - Spoken Language Systems Laboratory
InterpretaçãoInterpretação dada QuestãoQuestão
Exemplo de análise morfo/sintáctica
Quem contracena com jodie foster em panic room?
Reconhecimento de entidades mencionadas previamente
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
15L2 F - Spoken Language Systems Laboratory
ReconhecimentoReconhecimento de de EntidadesEntidadesMencionadasMencionadas
Estratégias consideradas
Criação de gramática local com “todos os títulos e nomes do Mundo”.
Não era viável carregar uma gramática com centenas de milhares de regras
Criação de gramática local com os títulos e nomes principais
Critérios para títulos e nomes principais?
Filmes mais recentes… E os grandes clássicos do cinema?
Pessoas com mais filmes… Ignoram-se nomes como James Dean?
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
16L2 F - Spoken Language Systems Laboratory
ReconhecimentoReconhecimento de de EntidadesEntidadesMencionadasMencionadas
Estratégia seguidaRealização de queries full-text com a questão formulada sobre atabela persons e films.
Quem é o realizador de forrest gump?
SELECT DISTINCT films.title FROM films WHERE match(title) AGAINST(“Quem é o realizador de forrest gump”)
forrestgump & co.
vida, pasión y muerte de un realizadoriracundo
through the eyes of forrest gumpdie welt des forrest gump
black forrest gumpforrest gump
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
17L2 F - Spoken Language Systems Laboratory
ReconhecimentoReconhecimento de de EntidadesEntidadesMencionadasMencionadas
Nem sempre os resultados são os esperadosSELECT DISTINCT films.title FROM films WHERE match(title)
AGAINST (“apocalypse now”)
Método: Consultar as primeiras 150 entradas e escolher o nome“mais longo”
apocalypseapocalypse bopapocalypse oz
apocalypse nowapocalypse joethe apocalypse
10.5: apocalypse
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
18L2 F - Spoken Language Systems Laboratory
EstruturaEstrutura
Recolha do corpus
Construção da base de dados
Interpretação da questão
Reconhecimento de Entidades Mencionadas
Desambiguação
Análise morfo/sintáctica/semântica
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
19L2 F - Spoken Language Systems Laboratory
DesambiguaçãoDesambiguação
Realizada a diversos níveis2 ou mais pessoas com o mesmo nome2 ou mais filmes com o mesmo títuloNome de pessoa que também é título de filme (ex: Michael Collins)
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
20L2 F - Spoken Language Systems Laboratory
DesambiguaçãoDesambiguação
Com base no contexto
Quem contracena com emma watson em harry potter?
Só uma “Emma Watson” entra em Harry Potter.
Nem sempre é possível desambiguar pelo contexto.
Quantos óscares recebeu Amadeus?
FILME ACTOROU
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
21L2 F - Spoken Language Systems Laboratory
EstruturaEstrutura
Recolha do corpus
Construção da base de dados
Interpretação da questão
Reconhecimento de Entidades Mencionadas
Desambiguação
Análise morfo/sintáctica/semântica
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
22L2 F - Spoken Language Systems Laboratory
AnáliseAnálise Morfo/Sintáctica/SemânticaMorfo/Sintáctica/Semântica
Cruzamento com regras de dependência que detectam padrões dequestões.
Questão é sintetizada em predicados com um ou mais argumentos.
Quem é o realizador de Forrest Gump?
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
23L2 F - Spoken Language Systems Laboratory
FasesFases de de DesenvolvimentoDesenvolvimento
Recolha do corpus
Construção da base de dados
Interpretação da questão
Reconhecimento de Entidades Mencionadas
Desambiguação
Análise morfo/sintáctica
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
24L2 F - Spoken Language Systems Laboratory
ExemploExemplo
Reconhecimento de entidades mencionadasMeg Ryan (pessoa)
Tom Cruise (pessoa)
Verificação de ambiguidadesNão existe
Escrita da gramática local1> noun[actor=+] = ?[surface:tom], ?[surface:cruise].1> noun[actriz=+] = ?[surface:meg], ?[surface:ryan].
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
25L2 F - Spoken Language Systems Laboratory
ExemploExemplo
Emparelhamento com regras de dependênciatarget_which_films_main_act_two(“meg ryan”, “tom cruise”)
<DEPENDENCY name="TARGET_WHICH_FILMS_MAIN_ACT_TWO">
<PARAMETER ind="0" num="23" word=“meg ryan"/>
<PARAMETER ind="1" num="24" word=“tom cruise"/>
</DEPENDENCY>
Processamento de XML por XSLT
get_from_bd/script-which-films-main-act-two.pl
ACTOR ‘meg ryan’ ACTOR ‘tom cruise’
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
26L2 F - Spoken Language Systems Laboratory
AvaliaçãoAvaliação
Realizada através de uma página Web
Questões efectuadas e respostas dadas guardadas em base de dados
Efectuada em 2 fases
Durante o desenvolvimento
198 questões que permitiram a detecção de erros
Final
Interface com questões-exemplo (5 utilizadores, 10 questões cada)
Interface sem questões-exemplo (5 utilizadores, 10 questões cada)
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
27L2 F - Spoken Language Systems Laboratory
AvaliaçãoAvaliação
Interface com questões-exemplo
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
28L2 F - Spoken Language Systems Laboratory
AvaliaçãoAvaliação
Interface sem questões-exemplo
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
29L2 F - Spoken Language Systems Laboratory
AvaliaçãoAvaliação
ResultadosCom questões-exemplo
Sem questões-exemplo
12 (70,6%)Outros Motivos0 (0,0%)Incorrecto NER 17 (34%)5 (19,4%)Sem Tratamento
Nãorespondidas
4 (12,1%)Incorrectamente
50
33 (66%)29 (87,9%)Correctamente
Respondidas
6 (20,0%)Outros Motivos9 (30,0%)Incorrecto NER 30 (60%)
15 (50,0%)Sem TratamentoNão
respondidas
2 (10,0%)Incorrectamente
50
20 (40%)18 (90,0%)Correctamente
Respondidas
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
30L2 F - Spoken Language Systems Laboratory
ConclusõesConclusões
Contribuições
Desenvolvimento de uma arquitectura genérica para ILNBD’s
Concretização para o domínio de cinema
Melhoria do analisador morfo/sintáctico/semântico utilizado
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
31L2 F - Spoken Language Systems Laboratory
TrabalhoTrabalho FuturoFuturo
Tratar mais padrões de questões
Disponibilizar de mais dados
Providenciar correcção ortográfica
Tratar de elipse e anáfora
Integrar com um sistema de QA (question-answering)