39
21/05/2019 1 Onde Estamos

Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

1

Onde Estamos

Page 2: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

2

Onde estamos

� O que é documento?

� Representação◦ Toda representação geralmente implica uma redução; Toda redução

implica perdas;

◦ ... da informação: É a substituição de uma entidade linguística longa e complexa por sua descrição abreviada. Sua função principal é demonstrar a essência do documento;

� Representação descritiva◦ Conjunto de características que o individualiza um documento,

descrito de forma padronização por elementos descritivos ou metadados. (MARC, DUBLIN CORE, FRBR);

Onde estamos

� Representação Temática◦ Resumo, índice;

◦ Indexação� Operação pela qual se escolhe os termos mais apropriados para

descrever o conteúdo de um documento;

� Por extração, por atribuição;

� Linguagens documentárias;

� Exaustividade x Especificidade.

Page 3: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

3

Onde estamos

� Indexação automática◦ Por extração, por atribuição;

◦ Indexação por extração automática� Isolar os elementos de um texto: tokens� Remoção de elementos de pouco valor semântico: stop word� Normalização de variação linguísticas: stemming� Formação de termos compostos� Cálculo de pesos: TF-IDF

� Processamento de Linguagem Natural

◦ Indexação por atribuição automática� Utilização de uma estrutura terminológica externa aos documentos;� Duas fases:

1. extração de palavras ou expressões do texto por meio de técnicas estatísticas;2. seleciona-se no vocabulário controlado o termo de indexação.

Onde estamos

� Classificação:◦ Processo pelo qual as coisas são reunidas de acordo com suas

semelhanças ou separadas conforme suas diferenças. (CDD, CDU)

Page 4: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

4

Para onde vamos

Período 5:

Usuário

Page 5: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

5

Introdução

Introdução

� [...] a ciência da informação, tradicionalmente envolvida com temas relativos aos usuários e aos usos da informação, desenvolveu, até a década de 1980, estudos centrados nos sistemas de informação e em sua eficiência. Sua maior preocupação era o perfeito funcionamento desses sistemas e de seus mecanismos de recuperação da informação.

� Da década de 80 em diante, ao contrário, o aparecimento de recursos voltados para a automação das tarefas documentárias e a mudança na maneira de perceber o usuário, agora na perspectiva de sua interação com as máquinas, despertaram reflexões e interpretações absolutamente diferentes. Enquanto principal beneficiário desses sistemas, percebeu-se que o usuário deveria ocupar o centro das atenções. Foi então que começaram a surgir pesquisas dedicadas especificamente ao exame daqueles que eram de fato os atores centrais de qualquer sistema de informação: não mais os aparelhos ou os artefatos, mas os usuários (MARTÍNEZ-SILVEIRA, ODDONE, 2007).

Page 6: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

6

Introdução

� Genericamente, as pesquisas em recuperação de informação podem ser categorizadas em duas linhas:◦ Pesquisas centradas no sistema

� Algoritmos de recuperação, ranqueamento, indexação,

� Projetos de interface, etc.

◦ Pesquisas centradas no usuário� Comportamento informacional

� Métodos centrados no usuário ou Modelos cognitivos

Modelos de Comportamento informacional

Page 7: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

7

Modelos de Comportamento Informacional

� Comportamento Informacional (Information Behaviour)◦ Como os indivíduos obtêm e manipulam informação.

◦ Inclui a busca, a utilização, a modificação, o compartilhamento e o armazenamento da informação.

� De maneira geral, o comportamento informacional está relacionado aos métodos e modelos cognitivos de busca e recuperação de informação.

Modelos de Comportamento Informacional

Mizzaro, 1998, p. 306

O usuário possui uma Real Information Need (RIN) – necessidade real de informação.

O usuário constrói sua Perceived Information Need (PIN) – necessidade de informação percebida

Portanto, a PIN é a representação mental da RIN e não é, necessariamente, completa ou mesmo correta.

A request é uma representação da PIN feita em uma linguagem humana, normalmente linguagem natural.

A request será convertida em uma expressão de busca (query), utilizando a linguagem empregada pelo sistema de recuperação de informação.

A cada nível de representação ocorre uma perda e uma distorção em relação ao nível anterior

Page 8: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

8

Modelos de Comportamento Informacional

� O Comportamento Informacional inclui “[...] comportamentos humanos relacionados com a busca, coleta, recuperação, organização e uso da informação” (SPINK; COLE, 2006, p. 25).

� Wilson (2000, p. 49):

◦ Comportamento informacional é a totalidade do comportamento humano em relação às fontes e canais de informação, incluindo a busca de informação ativa e passiva, além do uso da informação. Ou seja, inclui a comunicação face to face com outras fontes e canais de informação, como também a recepção passiva de informação como, por exemplo, assistir a anúncios de televisão, sem qualquer intenção para agir na informação dada.

� Muitos pesquisadores têm proposto modelos interativos para a busca e recuperação de informação que colocam o usuário na função central de um sistema.

Modelo básico

Necessidade de informação

Formulação da expressão de busca

Submeter a expressão ao sistema

Receber resultados

Estudar/Avaliar os resultados

Necessidade de informação satisfeita?

Fim

Sim

Não

Page 9: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

9

Modelo de Wilson

� WILSON, T. D. Information behaviour, an interdisciplinaryperspective. 1996.

◦ Por que algumas necessidades induzem a uma busca de informação mais do que outras?;

◦ Por que algumas fontes de informação são mais usadas do que outras?

◦ Por que na busca de informação uma pessoa pode atingir (ou não) os seus objetivos eficientemente?

Modelo de Wilson

� Apresenta o ciclo de atividades de informação, desde a urgente necessidade de informação até o estágio em que a informação está sendo usada.

� O modelo inclui diversas variáveis Intervenientes que têm influências significantes no comportamento informacional, além dos mecanismos que o ativam.

Page 10: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

10

Modelo de Wilson

(WILSON, 2000)

Modelo de Wilson

� Contexto da Necessidade de Informação

◦ As necessidades variam dependendo das mudanças no ambiente.

◦ As características dos papéis que uma pessoa tem na vida: pai, líder, gerente, etc.

◦ Macro-ambiente (sistema sócio-político e econômico de um país ou setor da indústria),

◦ Meso-ambiente (ambiente regional, comunidade local, uma cidade particular)

◦ Micro-ambiente de uma única organização.

� O ambiente condiciona a ocorrência de certas necessidades.

◦ As necessidades diferem em períodos de mudanças políticas e econômicas das necessidades apresentadas por um período de estabilidade.

Page 11: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

11

Modelo de Wilson

� Mecanismos de Ativação: ◦ Nem toda necessidade dá um incentivo para empreender

atividades que conduzam a buscar informação. Para descobrir o que estimula e motiva a busca de informação Wilson (1996) procura uma resposta principalmente na psicologia, mas também aponta para a necessidade de levar em consideração outras ciências.

◦ Teoria do stress/esforço (stress/coping)� Stress: “uma relação entre uma pessoa e o ambiente a qual é

considerada por esta pessoa como cansativa ou que excede seus recursos, arriscando desta forma o seu bem-estar”

� Esforço: “as aplicações cognitivas e comportamentais para dominar, reduzir ou tolerar as demandas internas e externas que são criadas pelas situações de stress” .

Modelo de Wilson

� Variáveis Intervenientes

◦ Pessoais

� Variáveis psicológicas

� perspectiva de vida

� sistema de valores

� orientação política

� conhecimento

� Variáveis emocionais

� aversão ao risco

� atitudes para inovação

� preferências

� preconceitos

� auto-percepção (de conhecimentos e habilidades)

� Variáveis demográficas

� sexo, idade, estado social e econômico, educação e experiência de trabalho;

◦ Papel social/interpessoal

� O papel que uma pessoa exerce situa o indivíduo em um lugar particular, ou seja, em um

sistema social e em uma organização.

Page 12: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

12

Modelo de Wilson

� Wilson (1996) sugere que nem todas as necessidades de informação fazem uma pessoa buscar informação.◦ Um indivíduo não se empenha em atividades de busca se ele está

convencido de que o conhecimento que possui é suficiente para entender a situação e tomar uma decisão.

◦ Se lhe falta tal convicção, a tensão (stress) unida ao perigo de cometer um erro acontece, exigindo um esforço para a busca de informação e resolução do problema.

◦ Um grau elevado de stress é a maior motivação para buscar informação (até um certo ponto, pois, um grau muito elevado de stress pode, até mesmo, paralisar tais atividades).

Modelo de Dervin

� DERVIN, B. An overview of sense-making research: concepts, methods and results to date. In: International Communications Association Annual Meeting. Dallas, Texas, 1983.

� Teoria Sense-Making

◦ A ‘realidade’ (os contextos) não é completa nem constante, ao contrário, é permeada de descontinuidades fundamentais e difusas, intituladas lacunas (gaps).

◦ Os indivíduos possuem comportamentos diferentes na busca e uso da informação, mesmo que estejam inseridos dentro de um ambiente de trabalho comum, ou de um grupo de interesses comuns.

Page 13: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

13

Modelo de Dervin

� Sense-Making é implementado em termos de quatro elementos constituintes:

◦ Uma situação no tempo e espaço, a qual define o contexto em que os problemas de informação surgem;

◦ Uma lacuna que identifica a diferença entre a situação contextual e a situação desejada (ex: incerteza);

◦ Um resultado, que é a consequência do processo de Sense-Making;

◦ Uma ponte: são meios de fechar a lacuna entre a situação e o resultado.

Modelo de Kuhlthau

� KUHLTHAU, Carol C. Inside the Search Process: Information Seeking from the User’s Perspective. Journal of The American Society for Information Science, v.42, n.5, 1991

� O Modelo ISP – Information Search Process

◦ As pessoas têm uma capacidade limitada para assimilar nova informação. Desta forma elas propositadamente constroem significados por seletividade assistida e os conectam ao que elas já conhecem. O processo ativo da formação de significado da informação é a tarefa do usuário no Processo de Busca de Informação (ISP).

◦ Assim, uma busca de informação é um processo de construção que envolve toda a experiência da pessoa, sentimentos, pensamentos e ações.

Page 14: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

14

Modelo de Kuhlthau

(KUHLTHAU, 2004, p. 82)

Modelo de Kuhlthau

� Inicio

◦ Quando uma pessoa torna-se consciente da falta de conhecimento

ou entendimento.

◦ Sensações de incerteza e apreensão

◦ As ações frequentemente envolvem discussões de possíveis

tópicos e abordagens.

Page 15: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

15

Modelo de Kuhlthau

� Seleção

◦ Identificar e selecionar o tópico geral para ser investigado ou a

abordagem a ser procurada.

◦ Sentimentos de incerteza frequentemente dão lugar para uma

perspectiva mais otimista depois que a seleção é feita, e há um

estado de preparo para começar a busca.

◦ Ações típicas são as conferências dos tópicos ou abordagens

selecionadas;

Modelo de Kuhlthau

� Exploração

◦ Caracterizada por sentimentos de confusão, incerteza, e

dúvida os quais frequentemente aumentam no decorrer do tempo.

◦ A tarefa é investigar informação sobre o tópico geral para estender

a compreensão pessoal. Os pensamentos se tornam orientados e

suficientemente informados sobre o tópico para formar um foco

ou um ponto de vista pessoal.

◦ As ações envolvem localizar a informação sobre o tópico geral, ler

para se tornar informado, e relacionar a nova informação com o

que já é conhecido.

Page 16: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

16

Modelo de Kuhlthau

� Formulação

◦ Ponto decisivo do ISP quando sentimentos de incerteza diminuem e aumenta a confiança. A tarefa é formar um foco da informação encontrada.

◦ Os pensamentos envolvem identificar e selecionar ideias das informações encontradas para formar uma perspectiva focada no tópico.

◦ Durante este tempo, uma mudança nos sentimentos é comumente notada, com indicações de aumento da confiança e um senso de clareza.

Modelo de Kuhlthau

� Coleta

◦ Quando as interações entre o usuário e as funções do sistema de informação estão mais efetivas e eficientes. Neste momento, a tarefa é juntar a informação relacionada com o tópico focalizado.

◦ Os pensamentos centram na definição, desdobramento e suporte ao foco.

◦ As ações envolvem a seleção da informação relevante para a perspectiva do tópico e fazendo notas detalhadas que pertençam especificamente ao foco pois a informação geral sobre o tópico não é mais relevante depois da ‘formulação’.

◦ Sentimentos de confiança continuam a aumentar, assim como os de incerteza diminuem com o interesse no aprofundamento do projeto.

Page 17: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

17

Modelo de Kuhlthau

� Apresentação/Avaliação◦ Sentimentos de ‘alívio’ são comuns com uma sensação de

satisfação se a busca for bem sucedida ou decepção se ela não o for.

◦ A tarefa é completar a busca e preparar para apresentar ou, caso contrário, usar o que se encontrou.

◦ Os pensamentos se concentram em culminar a busca com uma síntese personalizada do tópico ou problema.

◦ As ações envolvem uma busca resumida na qual a relevância decrescente e a redundância crescente são notadas na informação encontrada.

Modelo de Ellis

� ELLIS, David. Behavioural approach to information retrieval system design. Journal of Documentation, v. 45, n. 3, 1989, p. 171-212.

� Abordagem de análise que usa grupos pequenos, via observação ou entrevistas semi-estruturadas ao invés de grandes grupos via questionários ou entrevistas estruturadas para coleta de dados.

� Tentativa de gerar modelos de busca de informação a partir de padrões individuais ou de grupos.

� Padrão de comportamento de busca de informação que não se apresenta na forma de um modelo diagramático;

Page 18: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

18

Modelo de Ellis

� Tais comportamentos não necessariamente acontecem em uma sucessão específica e podem ser iniciados em sucessões diferentes e em tempos diferentes no processo de busca global. Ou seja, a partir do ‘início’, pode-se partir para a ‘navegação’, ir para a ‘ligação’, voltar ao ‘início’, fazer o ‘monitoramento’, voltar a ‘ligação’, etc.

� Percebe-se que, o modelo de Ellis pretende funcionar em todos os diferentes níveis do processo de busca de informação.

Modelo de Ellis

� Características de busca:◦ Iniciação

� Configura-se como os meios empregados pelo usuário para começar a busca de informação.� identificação de registros que poderiam servir como ponto de partida para o

ciclo de pesquisa.

� referências que foram usadas que poderão prover informações pertinentes.

� perguntas a colegas ou consultas a revisões de literatura, catálogos online, índices e resumos, além de bases de dados, periódicos online, etc.

◦ Ligação� Seguir através da rede de citações ou outras formas de conexão

referencial entre os diversos materiais ou fontes identificadas durante as atividades de início.

Page 19: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

19

Modelo de Ellis

� Navegação◦ Procura casual por informação em áreas de interesse potencial.

� Diferenciação◦ Uso de diferenças conhecidas entre as fontes encontradas (ex: o autor, tipo de

periódico especializado ou a natureza e qualidade da informação) como um modo de filtrar a quantidade de informação obtida.

� Monitoramento◦ Manter-se à frente dos desenvolvimentos de uma área seguindo certas fontes

(ex: principais periódicos; jornais; conferências; revistas; livros; e catálogos).

� Extração◦ Seleção de documentos e outros materiais identificados como relevantes.

� Verificação◦ A checagem da precisão de informação.

� Finalização◦ Busca final por informação..

Modelo Cognitivo de Ingwersen

� INGWERSEN, P. Information retrieval interaction. London: Taylor Graham, 2002. 246 p.

� Concentra-se em identificar os processos de cognição que podem ocorrer em todos os elementos de processamento de informação envolvidos;

� O modelo de Ingwersen propõe que a busca e recuperação de informação deve ser caracterizado por:◦ Um espaço cognitivo de um usuário individual que é caracterizado

pelo interesse do usuário, o seu estado cognitivo atual, um problema ou meta, incertezas e necessidades e comportamentos de informacionais;

◦ Um ambiente organizacional ou social que é caracterizado pelo domínio, estratégias ou metas e preferências.

Page 20: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

20

Expressão de busca

Expressão de busca

� Meio pelo qual o usuário de um sistema de recuperação de informação comunica a sua necessidade de informação;

� A especificação da expressão de busca pode utilizar a linguagem natural ou uma linguagem controlada, dependendo das ferramentas disponíveis no sistema;

� Além de linguagens textuais poderiam ser utilizadas imagens, sons, símbolos ou outros elementos que representem sua necessidade.

Aplicativo Shazam expressão de busca = trecho de música

Musipedia expressão de busca = sequência de notas

Recuperação de Imagens por semelhança

Page 21: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

21

Expressão de busca

� Spink et al (2001) realizaram estudos envolvendo mais de um milhão de consultas utilizando a ferramenta de busca Excite em um único dia: 16 de setembro de 1997. ◦ Constatou-se que o número médio de termos utilizados em uma

consulta varia entre 2 e 3.

◦ Além disso, mais da metade dos usuários reformulam suas buscas pelo menos uma vez. Esta constatação torna clara que as consultas iniciais muitas vezes não resultam em um conjunto de documentos satisfatórios para as necessidades de informação dos usuários.

Expressão de busca

� Jansen, Spink e Saracevic (2000)

◦ 51.473 buscas formuladas por 18.112 usuários do buscador Excite� Número médio de termos de busca: 2,21 termos.

� 62% das expressões de busca continham um ou dois termos

� Menos de 4% apresentaram mais do que 6 termos.

� 8% utilizavam-se de operadores booleanos.

� Termos modificadores (+, -, “ ”) apareceram em,

aproximadamente, 15% das buscas.

Page 22: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

22

Expressão de busca

� Giordano e Biolchini (2012)◦ Comportamento informacional de 52 estudantes de pós-graduação

no processo de recuperação na Web. � Google e o Google Acadêmico são as ferramentas mais utilizadas, sendo

que 55,8 % dos mestrandos e 33,3 % dos doutorandos.

� 30% dos estudantes aplicaram o operador "+" e sua variação "AND".

� O recurso de aspas foi aplicado por 23,1%, com o intuito de manter uma ordem exata das palavras da expressão de busca.

� Número médio de termos na expressão de busca: 2.7 termos

� 43% utilizavam dois termos

� 10% utilizaram mais de quatro termos na formulação de suas expressões.

Expressão de Busca

Fonte: (GIORDANO; BIOLCHINI, 2012, p. 137)

Page 23: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

23

Representação da expressão de busca

Representação da Expressão de Busca

� É necessário que a expressão de busca seja representada de forma similar à utilizada na representação dos documentos.

� Essa homogeneidade permitirá a comparação entre a busca e todos os documentos do corpus do sistema por meio da função de busca.

Page 24: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

24

O processo de recuperação de informação

Técnicas e Tecnologias

Page 25: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

25

Relevance Feedback

� Processo dialógico composto de interações sucessivas com o

sistema no qual, após submeter sua expressão de busca e obter um

primeiro conjunto de documento, o usuário marca ou sinaliza, aqueles

documentos que ele considera relevantes.

� Esse conjunto de documentos reconhecidamente relevantes é então

enviado ao sistema para que este possa refazer ou recalcular seus

critérios e apresentar um novo conjunto de resultados mais precisos, com

maior número de documentos relevantes do que no conjunto de

documentos anterior.

� Visa captar a real necessidade de informação do usuário por meio da

avaliação da representação dos documentos declarados como relevantes pelo

usuário. Esse processo interativo que se estabelece com o sistema

visa melhorar gradativamente os seus resultados.

Relevance Feedback

� Sistemas de recuperação de imagens são bons exemplos da eficiência do mecanismo de Relevance Feedback. Nesse domínio, as dificuldades do usuário em formular sua primeira consulta são maiores, face à complexidade em traduzir em palavras as características e propriedades das imagens de interesse.

� Por outro lado, o usuário tem condições de rapidamente julgar a relevância das imagens apresentadas nos resultados, iniciando assim um processo de refinamento da busca.

� O processo de Relevance Feedback pode ser resumido nos seguintes passos (MANNING, RAGHAVAN; SCHÜTZE, 2008, p.178):1. O usuário formula uma consulta [expressão de busca] e submete ao sistema;

2. O sistema retorna um conjunto inicial de documentos;

3. O usuário marca como relevante (ou não-relevante) alguns dos documentos recuperados e submete esses documentos juntamente com sua expressão de busca ao novamente ao sistema;

4. O sistema calcula uma melhor representação da necessidade de informação baseada no feedback do usuário.

5. O sistema apresenta um novo conjunto de documentos presumivelmente com um aumento da precisão dos resultados.

Page 26: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

26

Relevance Feedback

� O processo de Relevance Feedback consegue reconhecer de forma bastante precisa a real necessidade de informação do usuário no momento de sua busca.

� Se devidamente armazenadas, as informações resultantes dessa interação podem ser utilizadas para capturar os temas ou assuntos de interesses do usuário em um determinado período, e pode vir a integrar o seu perfil.

� Esse perfil do usuário pode ser utilizado na contextualização de futuras buscas, podendo vir a melhorar significativamente os resultados de um sistema de recuperação de informação.

Análise de Logs

� Um dos instrumentos mais utilizados para as avaliações do comportamento dos usuários de sistemas de recuperação de informação tem sido a análise dos logs das transações nesses sistemas.

� Esse método é geralmente utilizado para capturar características das interações dos usuários, sendo um método não intrusivo de coletar informações sobre as buscas.

(AIRES; ALUÍSIO, 2003).

Page 27: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

27

Análise de Logs

� Jansen e Pooch (2000) apresentam um resumo das características das pesquisas nessa área. Segundo esses autores, as análises de logs podem ser feitas em três níveis: sessões, consultas e termos das consultas.◦ As sessões compreendem o intervalo em que um determinado usuário esteve

utilizando um sistema de busca, considerando cada IP como um usuário.� As análises no nível de sessão são úteis, por exemplo, para determinar quanto tempo em

média um usuário leva em uma busca, quantas páginas este usuário visita durante este intervalo de tempo e quantas consultas um usuário faz por sessão.

◦ As consultas são constituídas de todos os caracteres como foram digitados por um usuário para realizar uma busca; incluem palavras e operadores que tenham sido utilizados.� Neste nível de análise, são levantadas estatísticas sobre o número de usuários que utilizam

operadores booleanos, quantos utilizam o recurso de frase exata, o número de termos por consulta, entre outras.

◦ Os termos das consultas são os termos de busca separados por algum delimitador.� Análises neste nível podem ser utilizadas para gerar listas dos assuntos mais procurados e

calcular o número médio de palavras por consulta, por exemplo.

Análise de Logs

� Estes níveis de análise são interpretados em separado ou em conjunto, e possibilitam, entre outras coisas, saber:◦ se os usuários repetem uma consulta. Existem formas

diversas de caracterizar uma consulta como diferente da anterior: pela ordem das palavras, pelo número de palavras, pelo tamanho da consulta, entre outras;

◦ que funções de busca, busca avançada e operadores os usuários utilizam. Isto permite saber o que colocar em evidência na página ou tela principal de um sistema de recuperação de informação

◦ quais são os temas mais procurados, quais são as áreas de interesse dos usuários. Os temas mais procurados podem dar origem a listas de páginas de maior interesse dos usuários ou qualquer outro recurso do sistema que abrevie o tempo necessário para o usuário recuperar a informação que necessite.

Page 28: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

28

Análise de Logs

� Continuação...◦ o número de páginas (telas) de resultados que os usuários

veem. Esse número é utilizado para justificar a importância de se ter um bom algoritmo de ordenação de resultados de busca ou uma interface que permita a visualização de mais ampla dos documentos resultantes de uma busca.

◦ com que frequência os usuários modificam uma consulta. Analisam também como as consultas foram alteradas, se acrescentando ou subtraindo termos ou se apenas trocando um termo por outro;

◦ o número de documentos visualizados. Essa informação pode ser utilizada para dar uma importância maior à criação de resumos sobre os documentos, caso se verifique que poucos documentos são acessados por sessão, o que sugere que os usuários só abrem documentos cujos títulos e resumos descrevem melhor o que eles procuram;

Expansão de Consulta

� Expansão de consulta é o termo utilizado para referenciar os métodos e processos que visam melhorar a eficiência da recuperação de informação baseados no pressuposto de que as consultas definidas pelos usuários muitas vezes não refletem suas reais necessidades de informação.

� O objetivo principal é adicionar novos termos à consulta inicialmente formulada pelo usuário a fim de melhorar os resultados obtidos.

� O conceito de expansão de consulta está relacionado ao conceito mais genérico de reformulação de consulta, que pode envolver também a exclusão de termos de uma consulta inicial.

Page 29: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

29

Expansão de Consulta

� O funcionamento de um mecanismo de expansão de consulta é dependente do modelo utilizado pelo sistema de recuperação de informação.◦ No Modelo Booleano, por exemplo, os termos de expansão são

combinados com os termos da consulta original por meio de operadores booleanos. O operador OR pode ser utilizado para realizar buscas mais genéricas, com um potencial aumento na revocação (recall). O operador AND restringe o resultado da consulta inicial, permitindo uma maior precisão, com uma consequente redução da revocação.

◦ Nas abordagens baseadas no Modelo Vetorial, termos de expansão são adicionados à consulta original juntamente com seus respectivos pesos (ROCCHIO, 1971).

Expansão de Consulta

� Spink et al (2001) realizaram estudos envolvendo mais de um milhão de consultas utilizando a ferramentas de busca Excite em um único dia: 16 de setembro de 1997.◦ Constatou-se que o número médio de termos utilizados em uma

consulta varia entre 2 e 3.

◦ Mais da metade dos usuários reformulam suas buscas pelo menos uma vez.

� Esta constatação torna clara que as consultas iniciais muitas vezes não resultam em um conjunto de documentos satisfatórios para as necessidades de informação dos usuários.

Page 30: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

30

Expansão de Consulta

� Efthimiadis (1996) distingue três modos diferentes deexpansão de consulta

Expansão de Consulta

� Manual (ou intelectual): o próprio usuário altera a sua consulta inicial por meio da adição de novos termos;

� Automática: quando o sistema gera os termos de expansão e os adicionados à consulta original;

� Interativo: o usuário seleciona termos de expansão a partir de um conjunto de termos apresentados pelo sistema;

Page 31: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

31

Expansão de Consultabaseada nos resultados da busca

� Está relacionado ao processo de Relevance Feedback. Este processo parte da ideia de que embora seja difícil formular uma primeira consulta eficiente, é fácil julgar a relevância dos documentos recuperados.

1. O usuário formula uma consulta e submete ao sistema;

2. O sistema retorna um conjunto inicial de documentos;

3. O usuário marca como relevante (ou não-relevante) alguns dos documentos recuperados e submete novamente ao sistema;

4. O sistema calcula uma melhor representação da necessidade de informação baseada no feedback do usuário.

5. O sistema apresenta um novo conjunto de documentos presumivelmente apresentado um aumento da precisão dos resultados.

� Essa interação com o sistema pode se repetir até que o usuário esteja satisfeito como o conjunto de documentos resultantes.

Page 32: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

32

Expansão de Consultabaseada nos resultados da busca

� Segundo Ruthven e Lalmas (2003) existem dois tipos Relevance Feedback:◦ User Relevance Feedback: o usuário pode indicar (marcar) os documentos

resultantes de uma consulta como relevantes ou não-relevantes e submeter essa nova informação ao sistema, que a utiliza na modificação da consulta original, adicionando novos termos e/ou alterando os pesos dos termos da consulta inicial a fim melhorar a eficácia da consulta.

◦ Pseudo (ou Blind) Relevance Feedback: não confia na informação de relevância fornecida pelo usuário e utiliza os documentos mais bem ranqueados na lista de resultados para aperfeiçoar a consulta. Esta técnica depende fortemente da qualidade da consulta inicial e de sua aptidão em recuperar documentos relevantes.

Expansão de Consultabaseada nos resultados da busca

� Relevance Feedback

◦ Eficazes para melhorar resultados da recuperação;

◦ Somente aplicável se a consulta original do usuário resultar em um conjunto com um número razoável de documentos;

◦ Não podem ser aplicados na formulação da consulta inicial, pois nenhuma está disponível.

� User Relevance Feedback são dependentes da voluntariedade dos usuários em fornecer o seu parecer sobre a relevância dos documentos recuperados.

� Segundo Spink et al (2000), na maioria das vezes os usuários são relutantes em fazer isso.

◦ Os autores analisaram o comportamento de usuários de mecanismos de busca do arquivo de log do buscador Excite.

◦ Essa ferramenta de busca possuía o recurso “More LikeThis” como uma opção de Relevance Feedback.

◦ Embora reconhecidamente útil, o mecanismo de Relevance Feedback raramente era utilizada pelos usuários.

Page 33: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

33

Expansão de Consultabaseada em estruturas de conhecimento

� Os métodos baseados nos resultados da busca selecionam os termos de expansão a partir dos documentos resultantes da consulta inicial;

� Nesse caso, a eficácia da expansão da consulta depende fortemente da qualidade da consulta inicial;

� Essa dependência não existe nos modelos de expansão baseados em estruturas de conhecimento;

� Podem ser aplicados na formulação da consulta inicial;

� As estruturas de conhecimento podem ser dependentes do corpus ou independentes do corpus.

Page 34: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

34

Expansão de Consultabaseada em estruturas de conhecimento dependentes do corpus

� Analisam os documentos do acervo documental a fim de selecionar os termos que serão utilizados para a expansão da consulta;◦ Dependências estatísticas entre termos são calculadas por meio da

aplicação de cálculos de co-ocorrência.� agrupamento (clustering)

� geração de matrizes de co-ocorrência

� construção automática de tesauros

Page 35: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

35

Expansão de Consultabaseada em estruturas de conhecimento independentes do corpus

� Utilizam estruturas de conhecimento que não apresentam relação com os documentos.

� São exemplos dessas estruturas: léxicos, glossários, dicionários, tesauros, ontologias;

Page 36: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

36

Expansão de Consultabaseada em ontologia

� Dey et al (2005) ◦ Experiências em buscas na Web utilizando o Google;

◦ Relatam um aumento na precisão das consultas que foram expandidas com termos de ontologias.

� Sack (2005) ◦ Base de dados bibliográfica e uma ontologia do domínio de

problemas NP-completos;

◦ Modo interativo de expansão� Termos semanticamente relacionados como sinônimos, termos

específicos e termos genéricos eram sugeridos aos usuários;

� O autor aponta as vantagens do uso de uma ontologia ao fornecer aos usuários um conhecimento contextualizado.

Expansão de Consultabaseada em ontologia

� Ontologia estrutura de conhecimento independente do corpus;

� Pode ser utilizada na expansão das consultas por meio da inserção de novos termos derivados dos relacionamentos entre os seus conceitos;

� A partir de uma interface adequada, as ontologias podem servir também como ferramentas para a seleção dos termos que irão compor a consulta inicial do usuário;

� Permite a uma pessoa leiga em um determinado domínio ou assunto consiga realizar consultas pertinentes em um sistema de recuperação de informação, ao mesmo tempo em que se familiariza com a terminologia do domínio de interesse;

Page 37: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

37

Referências

ReferênciasAIRES, R.V.A.; ALUÍSIO, S.M. Como incrementar a qualidade dos resultados das máquinas de busca: da análise

de logs à interação em português. Ciência da Informação, v.32, n.1, 2003.

ATHERTON, P., Handbook of Information Systems and Services, Paris, Unesco, 1977.

BLYTHE, J; ROYLE, J. A. Assessing nurses’ information needs in the work environment. Bulletin of the Medical Library Association, v. 81, n.4, p. 433-435, 1993.

CHOO, C. W.; DETLOR, B.; TURNBULL, D. A behavioral model of information seeking on the Web: preliminary results of a study of how managers and IT specialist use the web. In: ASIS Annual Meeting,1998.

Chowdhury, G.G. Introduction to modern information retrieval. London: Facet Publishing, 2010

DERVIN, B. An overview of sense-making research: concepts, methods and results to date. In: International

Communications Association Annual Meeting. Dallas, Texas, 1983.

DEY, L.; SINGH, S.; RAI, R.; GUPTA, S. Ontology aided query expansion for retrieving relevant texts. In:

Proceedings 3rd International Atlantic Web Intelligence Conference. Lodz, Poland, 2005.

EFTHIMIADIS, E. N. Query expansion. In: WILLIAMS, M.E. Annual Review of Information Science and

Technology-ARIST. Medford, N.J.: Information Today, 1996.

ELLIS, David. Behavioural approach to information retrieval system design. Journal of Documentation, v. 45,

n. 3, 1989, p. 171-212.

FIGUEIREDO, N.M. Estudos de uso e usuários da informação. Brasíilia: IBICT, 1994.

Page 38: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

38

Referências

� GUINCHAT, C.; MENOU, M., General Introduction to theTechniques ofInformation and DocumentationWork, Paris, Unesco, 1983.

� INGWERSEN, P. Information retrieval interaction. London: Taylor Graham, 2002. 246 p.

� JANSEN, B. J.; SPINK, A.; SARACEVIC, T. Real life, real users, and real needs: a study and analysis of user queries on the web. Information Processing & Management, v. 36, n. 2, p. 207–227, 1 mar. 2000.

� JANSEN, B.J.; POOCH, U. A review of web searching studies and a framework for future research. Journal of the American Society of Information Science and Technology, v. 52, n. 3, p. 235-246, 2000.

� KUHLTHAU, C.C.A principle of uncertainty for information seeking. Journal of Documentation, v. 49, n. 4, p. 339-355, 1993.

� KUHLTHAU, C. C. Seeking Meaning: A Process Approach to Library and Information Services, 2nd edition, Libraries Unlimited, Westport, CT., 2004.

� LECKIE, G. J.; PETTIGREW, K. E.; SYLVAIN, C. Modeling the information seeking of professional: a general model derived from research on engineers, health care professionals and lawyers. Library Quarterly, v. 66, n.2, p. 161-193, 1996.

Referências

MANNING, C. D.; RAGHAVAN, P.; SCHÜTZE, H. Introduction to information retrieval. New York: Cambridge University Press, 2008.

MARTINEZ-SILVEIRA, M. S. A informação científica na prática médica: estudo do comportamento informacional do médico-residente. Dissertação (Mestrado em Ciência da Informação) - Instituto de Ciência da Informação. Universidade Federal da Bahia, Salvador, 2005.

MATINEZ-SILVEIRA, M.; ODDONE, N. Necessidades e comportamento informacional: conceituação e modelos. Ciência da Informação, Brasília, v. 36, n. 1, p. 118-127, maio/ago. 2007.

MIZZARO, Stefano. How many relevances in Information Retrieval? Interacting with Computers, v. 10, n. 3, p. 303–320, 1998.

NEELAMEGHAN, A. Information for socio-economic development planning: general overview. In: EVANS, J.

(Ed.). Information for development: seminar papers and proceedings. [National Capital District]:

Department of Libraries and Information Studies, University of Papua New Guinea, 1992.

PAO, M.L., Concepts of Information Retrieval, Englewood, CO, Libraries Unlimited, 1989.

ROCCHIO, J. Relevance feedback in information retrieval. In: SALTON, G.: The SMART Retrieval

System: experiments in automatic document processing. Englewood Cliffs, US, Prentice-Hall, 1971.

RUTHVEN, I.; LALMAS, M. A survey on the use of relevance feedback for information access systems. The

Knowledge Engineering Review, n.18, v.2, 2003.

Page 39: Onde Estamos - Unesp - Faculdade de Filosofia e …Pesquisas centradas no sistema Algoritmos de recuperação, ranqueamento, indexação, Projetos de interface, etc. Pesquisas centradas

21/05/2019

39

Referências

SACK, H. NPBibSearch: An ontology augmented bibliographic search. In: Proceedings 2nd Italian

Semantic Web Workshop. Trento, Italy, 2005.

SCOTT, J.; WOOTLIFF, V. Business and commercial information. In: DOSSET, P. (Ed.). Handbook of special Librarianship and information work. 6th edn.London: ASLIB, 1992.

SPINK, A.; COLE, C. Human information behaviour: integrating diverse approaches and information use. Journal of the American Society for Information Science and Technology, v. 57, n. 1, p. 25-35, 2006.

SPINK, A.; JANSEN, B.J.; OZMULTU, H.C. Use of query reformulation and relevance feedback by Excite users. Internet Research: Electronic Networking Applications and Policy, v.10, n.4, 2000.

SPINK, A.; WOLFRAM, D.; JANSEN, B.J.; SARACEVIC, T. Searching the Web: The public and their queries. Journal of the American Society for Information Science and Technology, v.52, n.3, 2001.

TAYLOR, R. S. Question-negotiation and information seeking in libraries. College and Research Libraries, v. 29, p.178-194, 1968.

WILSON, T. D. On user studies and information needs. Journal of Documentation, v. 31, n. 1, p. 3-15, 1981.

WILSON, T. D. Information behaviour, an interdisciplinary perspective. 1996.

WILSON, T.D.; WALSH, C. Information behaviour: an inter-disciplinary perspective. British Library Research and Innovation Report, n. 10, 1996.

WILSON,T.D. Human information behavior. Information Science, v.3, n.2, 2000.