View
221
Download
3
Category
Preview:
Citation preview
Gestão e Recuperação de Informação
Informação Estruturada
José Borbinha – DEI/IST
2
Informação => Recursos
3
Informação?• Como informação iremos considerar
daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”.
• Nesta perspectiva o nosso problema da “Gestão e Recuperação de Informação” será agora um problema de “gestão e recuperação de recursos”...
4
Como se define um recurso?• Definição simples: Um recurso de informação poderá ser tudo
aquilo a que se pode atribuir um identificador!!!
• Exemplos de identificadores:– URL– URI– ISBN– Número de Contribuinte– “Pathname” num sistema de ficheiros– Número de telefone– Endereço de email– Número de aluno do IST– Matrícula de um automóvel– ..
• A assumpção geral é a de que se é possível atribuir um identificador a algo, então essa coisa terá “identidade”...
5
Identificadores e géneros de recursos:
• Exemplos de identificadores:– URL– URI– ISBN– Número de Contribuinte– “Pathname” num sistema de ficheiros– Número de telefone– Endereço de email– Número de aluno do IST– Matrícula de um automóvel– .. Mais exemplos ...???...
• Géneros de recursos:– Uma página web!– ...qualquer coisa...– Um livro!– Uma pessoa ou organização!– Um ficheiro num computador!– Uma pessoa ou organização!– Uma pessoa ou organização!– Uma pessoa!– Um automóvel!– .. ??? ...
6
Voltando ao problema genérico da Gestão e Recuperação de Informação
O nosso problema pode-se definir agora como sendo o de garantir que, para todos os recursos relevantes para um dado negócio, seja possível criar e gerir:
– Espaços de identificadores, para todos os recursos– Atributos que possam ser processados sobre os recursos
(eventualmente, os identificadores de um recurso podem ser atributos seus)
– Sistemas que recuperam identificadores de recursos como resposta a interrogações aos atributos dos mesmos
– Sistemas que façam a gestão do acesso aos recursos em troca dos seus identificadores
7
Atributos => Metadados
8
Sobre os Atributos– Podemos fazer uma analogia dizendo que no
problema “clássico” de RI os atributos correspondem à informação que se extrai do recurso, ou seu representativo, para indexar (lista de palavras, vector, ...). No entanto essa informação não é geralmente estruturada (são dados...)
– Numa perspectiva mais geral de GRI, os atributos correspondem a informação estruturada, a que se dá o nome de metadados do recurso!
– (definição simples) Metadados é assim a designação genérica para qualquer tipo de informação estruturada sobre um recurso.
9
Exemplos de atributos/metadadosTítulo = A Morgadinha dos Canaviais
<autor>Jaime Silva<autor>
id := 123-xpto-h3d4
Género: Dissertação
Type = JPEG2000
Data de Edição - 29 de Fevereiro de 2004
102 ## $aPT
700 #1 $aHalpern$bManuel Júdice$f1932-
10
Metadados podem ser criados
– Manualmente: o preenchimento de uma ficha por uma pessoa... => Um catalogador numa biblioteca!
– Automaticamente: a criação automática de uma estrutura de dados através de um programa de computador implementando algoritmos específicos... => Parsers, heurísticas, inferências, ...
11
“Information IQ”(imagem de http://www2.sims.berkeley.edu/academics/courses/is243/s06/lectures/figures/iq-2.gif)
Objectos de informação estruturados
podem facilitar a extracção de metadados!!!
12
Que tipos de metadados podemos ter?
– Descritivos• título, nome do autor, assunto, data de
criação, ...– Técnicos
• formato(s) do(s) ficheiro(s), tamanho (quantidade de bytes), ...
– Administrativos• Password de acesso, responsável pela compra
ou licenciamento, ...
– ...aqueles que o negócio precisar...
13
Voltando à criação de Metadados
• Alguns dispositivos ou sistemas podem produzir automaticamente metadados na altura da criação do recurso => máquinas fotográficas, editores de texto, etc...
14
Metadados num documento PDF(de http://www.dashboardbuddha.com/images/ooo_license_pdf_metadata.png)
15
Metadados manuais e automáticos (de http://blog.extensis.com/wp-content/uploads/2007/01/ms_photo_info_sm.jpg)
16
Mais metadados
• <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
• <html lang="por-PT" xml:lang="por-PT" xmlns="http://www.w3.org/1999/xhtml">• <head>• <title>Instituto Superior Técnico</title>• <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />• <meta name="keywords" content="ensino, ensino superior, universidade, instituto,
ciência, instituto superior técnico, investigação e desenvolvimento" />• <meta name="description" content="O Instituto Superior Técnico é a maior escola de
engenharia, ciência e tecnologia em Portugal." />• <meta name="author" content="Instituto Superior Técnico" />• <meta http-equiv="pragma" content="no-cache" />• <link rel="shortcut icon" href="http://www.ist.utl.pt/img/wwwist.ico" type="image/x-icon" />• <link rel="stylesheet" type="text/css" media="screen" href="css/iststyle.css" />• <link rel="stylesheet" type="text/css" media="print" href="css/print.css" />• <script src="/js/flash.js" type="text/javascript"></script>• <script src="/js/flash.vbs" type="text/vbscript"></script>• <script src="http://www.google-analytics.com/urchin.js" type="text/javascript">• </script>• <script type="text/javascript">• _uacct = "UA-182539-2";• urchinTracker();• </script>• </head>• <body>• ...
17
Mais sobre extracção de metadados
18
Mais sobre extracção de metadados
19
Há mesmo um negócio na extracção de metadados...
20
A propósito, uma patente em...(http://www.wipo.int/pctdb/en/wo.jsp?wo=2007027605)
21
Ponto de ordem:• Metadados são estruturas de informação sobre recursos que
podem servir de suporte à gestão, pesquisa e acesso a esses recursos
• Metadados podem existir independentes dos recursos ou existir integrados nos mesmos
• Metadados podem ser criados:– Manualmente– Automaticamente:
• Durante os processos de criação dos recursos• Posteriormente à criação dos recursos, extraídos dos
mesmos
22
Metadados e Esquemas
Se os metadados são estruturas de informação, então devem existir já esquemas definidos para essas estruturas, certo? Certo! Exemplos:
– XMP - Extensible Metadata Platform• http://xml.coverpages.org/xmp.html
– MARC Standards• http://www.loc.gov/marc/
– UNIMARC• http://www.unimarc.info/bibliographic/2.3/en/summary
– Dublin Core Metadata Initiative• http://dublincore.org/
– MPEG-7 / MPEG-21 DIDL• http://www.chiariglione.org/mpeg/
– etc...
23
24
25
26
27
28
Dos Metadados aos Serviços...
29
O que se pode fazer então com os metadados?• Em cenários bem definidos, podem ser simplesmente “despejados” para uma
base de dados, criando serviços de Precision=Recall=1
30
A propósito, um registo UNIMARC (codificado em MarcXchange)
31
O que se pode fazer então com os metadados?• Em cenários menos bem definidos (mais “Information Retrieval”), podem-se
usar os registos de metadados como fontes para serviços na mesma:
32
Partilha de Metadados• Os primeiros “indexadores” da Web(Yahoo, Sapo, etc.) eram na realidade serviços
baseados em metadados criados manualmente, em que pessoas indexavam cada site manualmente, isto é, atribuíam a cada “site” um conjunto de termos relacionados com o conteúdo do mesmo (Cultura – Cinema, Cultura – Pintura, Desporto – Futebol, Desporto – Atletismo, Culinária, ...).
• A partir de certa altura tornou-se complexo demais (senão mesmo impossível) continuar com esses processos, o que abriu as portas a novas alternativas automáticas, como o Altavista e o... Google!!!
• No entanto o Google indexa apenas a “web superficial”, continuando a não aceder à “web profunda” (o cenário mostrado no slide anterior, do Scholar Google, é já um passo para resolver esse problema...)
• Para dar mais visibilidade aos seus recursos, os criadores dos mesmos podem criar metadados descritivos e partilhá-los com quem estiver interessado em os recolher e agregá-los com outros para disponibilizar assim serviços de Recuperação de Informação...
• Os “standards” neste momento mais utilizados para este fim são o Dublin Core (como elementos de metadados) e o OAI-PMH (como protocolo para partilha desses metadados)
33
OAI - Open Archives Initiative
34
OAI-PMHProtocol for Metadata Harvesting
(http://www.oaforum.org/tutorial/image/structure-model.gif)
Web-Services segundo o modelo
REST...
35
No entanto também é possível conceber serviços baseados em arquitecturas distribuídas, em que se pode pesquisar em tempo real em servidores remotos, usando por exemplo o protocolo Z39.50...
http://pubs.usgs.gov/of/2003/of03-471/graphics/schweitzer/fig1.jpg
36
37
Servidores Z39.50 em bibliotecas Portuguesas:
38
O Z39.50 é um protocolo bastante complexo...SRU é uma solução equivalente mais simples (modelo REST ou WS com WSDL...)
39
TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50
40
Próximas aulas...
RSS
MPEG...
METS
SMIL
DocBook
ATOM
Dublin Core...
UNIMARC
MARC21ONIX
XML RDFDocument Schemas Metadata Registries
......
...
GML
41
Perguntas?
Recommended