Upload
lykhuong
View
215
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR
CURSO DE CIÊNCIA DA COMPUTAÇÃO
BIBLIOTECA DIGITAL APOIANDO O ENSINO
Área de Informática na Educação
por
Rodrigo Irineu Nunes
Gilberto Grandi, Dr. Orientador
Itajaí (SC), junho de 2005
UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR
CURSO DE CIÊNCIA DA COMPUTAÇÃO
BIBLIOTECA DIGITAL APOIANDO O ENSINO
Área de Informática na Educação
por
Rodrigo Irineu Nunes Relatório apresentado à Banca Examinadora do Trabalho de Conclusão do Curso de Ciência da Computação para análise e aprovação. Orientador: Gilberto Grandi, Dr.
Itajaí (SC), junho de 2005
SUMÁRIO
LISTA DE ABREVIATURAS.................................................................. iv
LISTA DE FIGURAS.................................................................................v
LISTA DE TABELAS..............................................................................vii RESUMO..................................................................................................viii ABSTRACT................................................................................................ ix
1. INTRODUÇÃO......................................................................................1 1.1. OBJETIVOS ........................................................................................................ 3 1.1.1. Objetivo geral .................................................................................................... 3 1.1.2. Objetivos específicos ......................................................................................... 3 1.2. METODOLOGIA................................................................................................ 3 1.3. ESTRUTURA DO TRABALHO ....................................................................... 4
2. FUNDAMENTAÇÃO TEÓRICA ........................................................5 2.1. RECUPERAÇÃO DE INFORMAÇÕES.......................................................... 5 2.1.1. Abstração de informações ................................................................................ 6 2.1.2. Formatos dos documentos................................................................................ 7 2.1.3. Relevância da informação ................................................................................ 8 2.1.4. Usuário e interface ............................................................................................ 9 2.1.5. Tipos de SRI ...................................................................................................... 9 2.1.6. Técnicas de recuperação de informações textuais ....................................... 11 2.1.7. Estruturas de armazenamento ...................................................................... 18 2.1.8. Busca e visualização........................................................................................ 21 2.2. BIBLIOTECA DIGITAL ................................................................................. 22 2.2.2. Benefícios da implantação de uma Biblioteca Digital ................................. 26 2.2.3. Planejamento de uma Biblioteca Digital....................................................... 27 2.2.4. Os direitos autorais ......................................................................................... 29 2.2.5. Documentos digitais ........................................................................................ 29 2.2.6. Preservação dos documentos ......................................................................... 30 2.3. FERRAMENTAS SEMELHANTES............................................................... 31 2.3.1. Biblioteca Digital de Teses e Dissertações da UFRGS – BDTD ................. 31 2.3.2. Biblioteca Digital da UNICAMP ................................................................... 33
3. PROJETO.............................................................................................36 3.1. REQUISITOS .................................................................................................... 36 3.1.1. Requisitos funcionais ...................................................................................... 36 3.1.2. Requisitos não funcionais ............................................................................... 37 3.2. DIAGRAMAS DE CASOS DE USO ............................................................... 39 3.2.1. Caso de uso do Sistema de Recuperação de Informação ............................ 39 3.2.2. Caso de uso do sistema de apoio ao ensino ................................................... 40
iii
3.3. DIAGRAMAS DE ATIVIDADES ................................................................... 42 3.3.1. Aula (Sincronismo) ......................................................................................... 42 3.3.2. Pacote - Sistema de Recuperação de Informação ........................................ 43 3.4. MODELO LÓGICO ......................................................................................... 47 3.4.1. Dicionário de dados......................................................................................... 48 3.5. DESENVOLVIMENTO.................................................................................... 50 3.5.1. Sistema de Recuperação de informação ....................................................... 50 3.5.2. Estrutura do SRI............................................................................................. 59 3.5.3. Armazenamento dos documentos.................................................................. 61 3.5.4. Características da Biblioteca Digital............................................................. 62 3.5.5. Sistema de Apoio ao Ensino ........................................................................... 63 3.5.6. Gerenciar a Turma ......................................................................................... 63 3.5.7. Gerenciar aula ................................................................................................. 65 3.5.8. Questionários e Relatório Desempenho ........................................................ 65 3.5.9. Aula em Laboratório ...................................................................................... 67
4. AVALIAÇÃO DO SISTEMA.............................................................68
5. CONCLUSÃO ......................................................................................70
REFERÊNCIAS BIBLIOGRÁFICAS ...................................................72
APÊNDICE A – RELATÓRIO DOS CENÁRIOS ...............................76
APÊNDICE B – ANALISADOR LÉXICO DE SELEÇÃO DOS ENDEREÇOS ...........................................................................................81
APÊNDICE C – IDENTIFICAÇÃO DE TERMOS .............................83
APÊNDICE D – TABELA DE TERMOS INVÁLIDOS - STOPWORDS ............................................................................................86
APÊNDICE E – FUNÇÃO MORFOLÓGICA......................................87
APÊNDICE F – QUESTIONÁRIO DE VALIDAÇÃO........................88
ANEXO I – ARTIGO...............................................................................89
LISTA DE ABREVIATURAS
ASCII American Standard Code for Information Interchange CAU Colégio de Aplicação da Universidade do Vale do Itajaí CRC32 Cyclic Redundancy Checksum de 32-bit CTTMAR Centro de Ciências Tecnológicas da Terra e do Mar HTML Hypertext Markup Language PDF Portable Document Format PHP Hypertext Preprocessor RI Recuperação de Informação RTF Rich Text Format Sibiun Sistema Integrado de Bibliotecas da Univali SRI Sistemas de Recuperação de Informações TCC Trabalho de Conclusão de Curso UML Linguagem de Modelagem Unificada. UNIVALI Universidade do Vale do Itajaí URL Universal Resource Location.
LISTA DE FIGURAS
Figura 1. Representação do processo de recuperação de informação ..................................................6 Figura 2. O processo de abstração........................................................................................................7 Figura 3. Página Yahoo - Referente a categoria Biblioteca ...............................................................13 Figura 4. Página Yahoo - Processo de indexação automático............................................................14 Figura 5. Arquivo HTML com demonstração de endereços de internet ............................................14 Figura 6. Demonstração do analisador léxico ....................................................................................15 Figura 7. Identificação de stopwords .................................................................................................17 Figura 8. Estrutura de uma lista invertida ..........................................................................................19 Figura 9. Método de assinatura ..........................................................................................................21 Figura 10. Mecanismo de busca BDTD - UFRGS.............................................................................32 Figura 11. Forma de acesso aos Metadados.......................................................................................32 Figura 12. Mecanismo de busca da biblioteca digital da UNICAMP................................................33 Figura 13. Resultado da busca da biblioteca digital da UNICAMP...................................................34 Figura 14. Requisitos funcionais........................................................................................................36 Figura 15. Requisitos de segurança....................................................................................................37 Figura 16. Requisitos de confiabilidade.............................................................................................37 Figura 17. Requisitos de software e hardware ...................................................................................38 Figura 18. Requisitos de interface......................................................................................................38 Figura 19. Caso de Uso do Sistema de Recuperação de Informação .................................................39 Figura 20. Caso de Uso do sistema de apoio ao ensino .....................................................................40 Figura 21. Diagrama de Atividade – UC ENS 07 - Aula (Sincronismo) ...........................................42 Figura 22. Diagrama de Atividade – UC SRI 02 - Envio de Documento ..........................................43 Figura 23. Diagrama de Atividade – UC SRI 01 - Consulta SRI.......................................................45 Figura 24. Modelo lógico do Sistema de Biblioteca digital ...............................................................47 Figura 25. Formulário: Envio de Documentos para o acervo ............................................................51 Figura 26. Formulário de Edição........................................................................................................51 Figura 27. Formulário: Lista os termos do dicionário........................................................................53 Figura 28. Formulário: Manutenção de stopwords. ...........................................................................53 Figura 29. Resultados gerados pela Análise Morfológica..................................................................55 Figura 30. Formulário: Indexação Automática. .................................................................................55 Figura 31. Representação da estrutura de índice................................................................................56 Figura 32. Formulário de Busca. ........................................................................................................58 Figura 33. Sistema de sugestão de consulta. ......................................................................................58 Figura 34. Estrutura do SRI................................................................................................................60 Figura 35. Formulário de solicitação de inclusão de aluno em uma turma........................................64 Figura 36. Formulário de inclusão de aluno feita pelo professor.......................................................64 Figura 37. Formulário controle de aula. .............................................................................................65 Figura 38. Formulário de resposta do questionário............................................................................65 Figura 39. Formulário de Relatório....................................................................................................66 Figura 40. Formulário de avaliação das respostas por aluno. ............................................................66 Figura 41. Sincronismos da aula. .......................................................................................................67 Figura 42. Página do CTTMAR.........................................................................................................81 Figura 43. Código fonte do analisador léxico. ...................................................................................81 Figura 44. Resultado do Analisador léxico. .......................................................................................82 Figura 45. Página do CTTMAR – Para identificação de Termos ......................................................83 Figura 46. Código fonte do identificador de termos. .........................................................................84
vi
Figura 47. Resultado com termos identificados. ................................................................................85 Figura 48. Função morfológica ..........................................................................................................87 Figura 49. Questionário de validação.................................................................................................88 Figura 50. Representação do processo de recuperação de informação ..............................................91
LISTA DE TABELAS
Tabela 1. Algoritmos Hash ................................................................................................................20 Tabela 2. Indicadores de qualidade ....................................................................................................34 Tabela 3. Funcionalidades dos casos de uso – Sistema de Recuperação de Informação...................40 Tabela 4. Funcionalidades dos casos de uso – Apoio ao ensino ........................................................41 Tabela 5. Dicionário de dados............................................................................................................48 Tabela 6. Ocupação dos documentos em disco..................................................................................61 Tabela 7. Comparação entre as Bibliotecas Digitais..........................................................................62 Tabela 8. Tabela de Validação. ..........................................................................................................68 Tabela 9. Termos irrelevantes ............................................................................................................86
RESUMO
NUNES, Rodrigo Irineu. Biblioteca digital apoiando o ensino. Itajaí, 2005. 74 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação)–Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2005. A informação digital associada ao ensino apresenta-se como alternativa aos modelos de ensino tradicionais, possibilitando um processo educacional independente de tempo ou lugar. No aspecto colaborativo, ainda promove através da formação de grupos de estudo, a troca de conhecimentos e a valorização das interações entre alunos, e entre alunos e professores. Entretanto, para que o modelo educacional seja completo é necessário um mecanismo que disponibilize os materiais didáticos e complementares. Nesse sentido, o presente projeto refere-se à criação e operação de uma biblioteca digital, desenvolvida para apoiar o ensino no Colégio de Aplicação da Univali. Têm como objetivos preservar a memória institucional e disponibilizar material didático gerado pelos professores e alunos, proporcionando maior visibilidade e acesso, através da Internet. Aborda um sistema de recuperação de informação onde permite um sistema de busca por campos (autor, título entre outros), e através de termos relevantes presentes nos textos. Palavras-chave: Bibliotecas Digitais. Recuperação da Informação. Informática na Educação.
ABSTRACT
The digital information associated to the teaching, it is presented as alternative to the models of traditional teaching, turning possible an independent educational process of time and place. In the collaborative aspect, it is still promote, through the formation of study group, the change of knowledge and the valorization of interactions among students, and between students and teachers. However, it is necessary a mechanism that turns available the didactic materials and complements to the educational model is complete. In this way, the present project is referred to the creation and operation of a digital library, developed to support the teaching at Colégio de Aplicação da UNIVALI. The main objectives are to preserve the institutional memory and to turn available didactics material generated by teachers and students, providing a greater visibility and accessibility, through Internet. It approaches a recuperation system of information where allows a search system by fields (author, title among others), and through the present relevant terms in the texts. Keywords: Digital Library. Recuperation of Information. informAtics in Education.
1. INTRODUÇÃO
Desde a criação da escrita até as tecnologias da informação dos dias de hoje, existe a
necessidade de armazenar e recuperar as informações já geradas. Pois a cada dia a base de
informação aumenta, sendo neste processo criadas novas informações e descartando outras. Esta
evolução constante da informação dificulta o processo de pesquisa, gera um dinamismo nas formas
de adquirir essas informações. Se tornado um desafio para os membros da sociedade conseguirem
avaliar e assimilar todas estas informações.
Para acompanhar essas evoluções as instituições de ensino também tiveram que evoluir
quanto ao seu processo de ensino. Para estarem adaptadas aos novos conhecimentos precisaram
criar novos métodos de ensino, tais como, atividades extra-classe, pesquisas, trabalhos de campo,
levantamento histórico e geográfico regional. Muitos destes conteúdos não estão documentados ou
presentes em bibliografias. Estas atividades realizadas por alunos e professores geram materiais
como por exemplo: textos, tabelas, imagens, apresentações e etc. Uma das maiores dificuldades dos
professores é manter estes documentos para uso futuro, com outras turmas de alunos. Para isso, se
propôs a construção de um sistema com o objetivo de armazenar os documentos para que os
mesmos possam ser reutilizados futuramente. Atualmente, estas informações são perdidas e depois
refeitas gerando trabalho adicional para professores e alunos. Nas pesquisas efetuadas com
professores e na internet, não se encontrou nenhum sistema que satisfaça estas necessidades dos
professores do Colégio de Aplicação da Univali (CAU).
Os materiais produzidos são utilizados para leitura e/ou pesquisa em outras turmas. Neste
caso, para que outras classes possam tirar proveito das informações já levantadas, ou até mesmo
expandir os documentos já existentes, necessita-se de um sistema que possa integrar recursos
computacionais e pedagógicos com interação do aluno. Para isso, propõe-se um sistema de apoio ao
professor para armazenar os conteúdos, que possa ser utilizado para dar aula em laboratório e
disponibilizando as informações na internet.
Acredita-se que o sistema desenvolvido venha a colaborar com as necessidades dos
professores. Neste sentido, o uso da informática pode auxiliar os professores na transmissão do
conhecimento e na aquisição de um novo modo de ensinar, mais criativo e dinâmico. Afinal, “o
computador é um instrumento poderoso e versátil, que, se usado com inteligência e competência,
2
pode tornar-se um excelente recurso pedagógico à disposição do professor em sala de aula.”
(CHAVES; SETZER, 1988).
Segundo Mercado, (2002) o uso do computador na educação tem como objetivo promover a
aprendizagem dos alunos e ajudar na construção do processo de conceituação e no desenvolvimento
de habilidades importantes para que ele participe da sociedade do conhecimento e não
simplesmente facilitar o seu processo de aprendizagem. É preciso criar ambientes propícios aos
alunos, que os possibilitem aprender através da compreensão do que estão desenvolvendo e da
percepção do que são capazes de produzir. Estes ambientes devem oferecer uma atmosfera
estimulante, desafiadora e criativa para que de fato auxiliem no processo de aprendizagem.
A ferramenta desenvolvida neste projeto, inicialmente está sendo utilizada no CAU, para as
turmas de 1ª a 4ª séries, com foco na 3ª série contendo informações culturais e históricas sobre o
município de Itajaí. Os professores que ministram estes assuntos alegam que na maioria das vezes o
material não existe em livros didáticos, sendo necessário elaborá-los para serem ministrados.
Apesar do uso inicial ser para o CAU, o sistema poderá ser expandido e utilizado em qualquer rede
de ensino e em qualquer classe.
No decorrer do desenvolvimento deste projeto, foram utilizadas as seguintes tecnologias e
conceitos computacionais: banco de dados para armazenar dados dos alunos, textos e imagens;
sincronização entre computadores de um laboratório; técnicas de recuperação de informação; e
permitir a disponibilização das informações em ambiente Web.
3
1.1. OBJETIVOS
1.1.1. Objetivo geral
Desenvolver um sistema para apoio ao ensino do Colégio de Aplicação da Univali
permitindo que professores e alunos armazenem e recuperem materiais de ensino.
1.1.2. Objetivos específicos
Os objetivos específicos deste projeto de pesquisa são:
• Cadastrar as turmas e/ou grupos de alunos envolvidos em uma atividade;
• Cadastrar os questionários e suas respostas;
• Banco de dados para armazenar as informações que vão compor a biblioteca de
conteúdos;
• Recuperar informações existentes na biblioteca, através da definição e implementação de
um método de busca adequado ao contexto.
• Sincronização entre diversos computadores para que todos os alunos assistam o mesmo
conteúdo quando este for ministrado em laboratório;
• Realizar a modelagem do Sistema;
• Testar e validar a implementação do Sistema; e
• Documentar o desenvolvimento e os resultados do sistema.
1.2. METODOLOGIA
Para a fundamentação teórica foram realizadas pesquisas em livros, artigos e publicações,
realizou-se também, entrevistas com profissionais que trabalham no ensino fundamental da
UNIVALI.
A metodologia adotada para o desenvolvimento deste trabalho, segue as seguintes etapas:
Estudo através da Internet, utilizando sites de busca como o Google, Yahoo, sites
especializados em desenvolvimento como sourgeforge.net, php.net, phpbrasil.com entre outros para
4
pesquisar e avaliar soluções similares. A pesquisa se iniciou com a busca de documentos que
definam os métodos de recuperação de informação, bibliotecas digitais e informática na educação;
Estudo dos métodos de recuperação de informação e seus modelos;
Utilizando a Análise Orientada a Objetos seguindo a notação UML onde é feita a análise do
sistema, ou seja, os requisitos, diagramas e especificações dos casos de uso. Através da análise são
extraídos os dados para fazer à modelagem do banco de dados e o dicionário de dados, para a qual
foi utilizada a ferramenta Power Designer; e
A etapa seguinte é composta da implementação dos requisitos do sistema juntamente com
testes e validação do sistema. Onde são levantados os problemas ocorridos no processo de
implementação, necessitando de um feedback da etapa anterior afim de eliminar as inconsistências
com a modelagem já realizada.
1.3. ESTRUTURA DO TRABALHO
O trabalho está dividido em quatro capítulos: Introdução, Fundamentação Teórica, Projeto e
Conclusões.
No capítulo Introdução é oferecido uma síntese do trabalho, definindo os objetivos,
apresentando a metodologia de desenvolvimento e a estrutura do trabalho. Em seguida, no capítulo
Fundamentação Teórica, é exposto o conteúdo teórico do trabalho fundamentado nas bibliografias
indicadas no próprio texto. Este capítulo está dividido em três Sessões:
1. Recuperação de informações: uma breve explanação das suas características e de suas
funcionalidades na construção de sistema de recuperação de informação através de
palavras relevantes;
2. Biblioteca Digital: apresenta as etapas de construção de uma Biblioteca digital e seus
componentes, junto com a análise dos direitos autorais e documentos; e
3. Ferramentas semelhantes: expõe duas bibliotecas digitais desenvolvidas pela UFRGS e
pela UNICAMP, que muito se assemelha com a biblioteca desenvolvida.
O capítulo 3 apresenta o Projeto, constando às funcionalidades do sistema, modelagem do
sistema, desenvolvimento, validação e testes finais.
2. FUNDAMENTAÇÃO TEÓRICA
A fundamentação teórica do trabalho está dividida em três Sessões e aborda os assuntos referentes
a: Recuperação de informações (onde é feita uma explanação e também a classificação dos
processos de um sistema de recuperação de informação); Biblioteca digital (apresenta as definições
de uma biblioteca digital e seus componentes); Sistemas Similares (aborda a existência de algumas
bibliotecas desenvolvida para auxiliar na buscar de informação).
2.1. RECUPERAÇÃO DE INFORMAÇÕES
O homem sempre necessitou ampliar seu conhecimento, sendo este um processo de
aquisição constante e essencial em sua vida cotidiana e profissional. Com o avanço das tecnologias
da informação, o conhecimento tornou-se dinâmico e volumoso. Necessitou elaborar meios para
armazenagem, localização e manipulação das informações para que possa ser utilizada de maneira
popular. A fim de atender essas necessidades foram desenvolvidas as técnicas de recuperação de
informação.
“Os Sistemas de Recuperação de Informação (SRI) foram criados para facilitar o acesso à
informação em uma coleção de documentos digitais. Esses sistemas permitem organizar,
padronizar, indexar e recuperar informações sobre os documentos de uma coleção” (SILVEIRA,
2003, p. 133).
Em 1950 o termo “Recuperação de Informação” (RI), foi utilizado pela primeira vez em um
artigo cientifico, por Calvin Moores, sendo uma atividade que envolve os aspectos de descrição de
informação (indexação, padronização) e sua especificação para busca, além de qualquer técnica,
sistema ou máquina empregada para realizar ou auxiliar essas tarefas (WIVES, 2002, p. 23).
Atualmente, o SRI consiste na busca de documentos relevantes a uma dada consulta que
expressa a necessidade de informação do usuário. Esses documentos podem não apenas ser
informações textualizadas, mas serem sons, imagens, vídeos e outros tipos de dados (GONZALEZ;
LIMA, 2001). Uma representação simplificada do processo de recuperação de informação é
apresentada na Figura 1.
6
Figura 1. Representação do processo de recuperação de informação Fonte: Adaptado de Ferneda (2003, p. 15).
2.1.1. Abstração de informações
Os sistemas não recuperam informação, mas sim os documentos ou referências que contem
as informações que possa suprir a necessidade do usuário (FERNEDA, 2003, p. 11). Sendo que os
documentos são o portador das informações em seu interior, onde contem as características
relevantes para o usuário.
Uma etapa importante no desenvolvimento de um SRI é determinar as características mais
relevantes em um documento como autores, título, palavras chaves entre outros. Conforme Wives
(2002, p. 28), é através das características de um documento que o SRI é capaz de identificá-lo
como relevante para o usuário. Portanto uma das primeiras interações entre os documentos e o SRI
é poder identificar estas características do documento e criar uma representação do mesmo. Esta
representação nada mais é do que uma abstração do documento através de alguma modelagem.
Porém, se na modelagem adotada não representar corretamente o documento ou se uma de suas
características não for considerada, o usuário pode não conseguir localizar e recuperar esse
documento.
Determinado as características mais relevantes para a representação dos documentos, torna-
se necessário analisar cada um dos documentos, selecionar essas características e armazená-las.
Usuário
Função de Busca
Documentos
Representação de termos
Expressão de Busca
7
Sendo que este processo de modelagem pode ser realizado manualmente ou automaticamente
(WIVES, 2002, p. 29).
A Figura 2 demonstra o processo de abstração, onde as informações são analisadas
manualmente ou automaticamente. Após a análise, as características são armazenadas, conforme
algum modelo adotado em uma representação interna (WIVES, 2002, p. 29).
Figura 2. O processo de abstração Fonte: Wives (2002, p. 29).
2.1.2. Formatos dos documentos
Inicialmente o documento foi um termo utilizado para denotar um registro textual (um
texto). Porém, existem outros objetos que também contém e transmitem informações, como uma
pintura, uma figura, um gráfico, uma escultura, um filme ou outro objeto qualquer, desde que ele
transmita informação e esteja contido em material físico ou em formato digital (WIVES, 2002, p.
24).
No início do século XX o termo "Documentação" foi cunhado por Paul Orlet. que também a sistematizou e previu tecnologias que seriam úteis para sua operacionalização. Orlet em seu "Traité de Documentation" (1934), mostra-se interessado em toda novidade tecnológica que permita condesar e organizar a informação de acordo com suas necessidades e objetivos “ (FERNEDA, 2003, p. 5).
8
As técnicas apresentadas neste trabalho de conclusão de curso consideram apenas os
documentos textuais. Os arquivos como imagens, sons, vídeos serão armazenados integralmente e
representados através de uma descrição textual. Sendo apenas adicionados na estrutura de índice os
arquivos de formatos ASCII, sendo que os formatos trabalhados (RTF, TXT, HTML) serão tratados
por serem formatos padrões em ambiente web. Segundo Vit (2000), o formato ASCII, é aceito pela
maioria dos sistemas computacionais. Este tipo de codificação de texto não usa formatações
especiais, e nem marcações são aceitas, apenas seqüências de caracteres e alguns símbolos da
linguagem. Deve-se esclarecer isto porque existem técnicas de recuperação de informação para
muitos tipos específicos de arquivos textuais ou que se adaptam melhor a um determinado tipo.
2.1.3. Relevância da informação
Conforme Ferneda (2003, p. 12), os primeiros sistemas de recuperação de informação
baseavam-se na contagem de freqüência das palavras do texto e na eliminação de palavras
reconhecidamente de pouca relevância.
O termo “informação é uma propriedade dos dados resultante de ou produzidas por um processo realizado sobre os dados. O processo pode ser simplesmente a transmissão de dados; pode ser a seleção de dados; pode ser a organização de dados; pode ser a análise de dados” (HAYES, 1986, apud FERNEDA, 2003, p. 9).
Um sistema de recuperação de informações só pode retornar informações relevantes para o
usuário. Isso porque informação relevante é aquela informação que o usuário necessita em
determinado momento para a realização de alguma tarefa, ou seja, ela deve estar no contexto que o
usuário deseja e no momento certo (WIVES, 2002, p. 25).
No caso, do usuário solicitar informação sobre “7 de setembro”, buscando informação sobre
a data histórica. Tendo nenhuma relevância neste momento o termo “Rua 7 de setembro”, pois
assume que o usuário já conhece esta informação e não a necessita.
Conforme Wives (2002, p. 27), o SRI é a “interface” entre o usuário e os documentos de
uma coleção. Tendo a função de receber a consulta do usuário e pesquisar na coleção de
documentos ou descrições de documentos armazenados em seu banco de dados e retornar o
resultado da pesquisa com documentos relevantes.
9
2.1.4. Usuário e interface
A interface do SRI recebe a expressão de busca do usuário, e deve resultar na recuperação
de uma lista de documentos possivelmente relevantes. Permitindo que possibilite a verificação de
cada um deles a fim de selecionar os que são úteis. A principal dificuldade do usuário é converter
sua necessidade em uma expressão de busca, condizentes com as palavras ou expressões utilizadas
para representar os documentos no momento da armazenagem (FERNEDA, 2003, p. 14-19).
Um problema que deve ser considerado é o fato do formalismo do SRI não permitir com que
o usuário descreva ou expresse corretamente sua necessidade. Isso pode ocorrer, por exemplo, em
sistemas cujo documento seja do tipo imagem e a forma de consulta não permita com que o usuário
desenhe imagens, mas sim, descreva-as através de uma forma textual (WIVES, 2002, p. 30).
Wives (2002, p. 30) descreve o problema de vocabulário. Mesmo que o usuário consiga
descrever corretamente sua necessidade de informação, pode não ser recuperado exatamente o que
ele espera. Isso porque cada pessoa descreve um mesmo objeto de diversas formas.
2.1.5. Tipos de SRI
A seguir são detalhados os principais tipos de SRI e suas características. Aborda-se apenas
sistema realizado automaticamente, desconsiderando os métodos realizados manualmente. Pelo fato
deste projeto estar interessado na área computacional, além de seguir a tendência tecnológica.
2.1.5.1. Sistemas de recuperação de informação bibliográfica
O primeiro modelo adotado foi o sistema de recuperação de informação bibliográfica,
conhecido por sistemas de catálogos. O objeto a ser catalogado é descrito pelos atributos mais
relevantes do mesmo (por exemplo: título, autor, data, resumo-descrição, palavras-chave) e estes
são adicionados ao sistema. Quando o usuário consulta o sistema, apenas a referência bibliográfica
(os atributos) ao(s) objeto(s) relevante(s) é retornada. Indicando onde o documento pode ser
encontrado. Este documento pode ser de qualquer tipo, já que não necessariamente os armazenam,
mas sim, mantêm sua referência em um índice (WIVES, 2002, p. 34). Como exemplo deste modelo,
tem-se o ELISA - Sistema Integrado de Bibliotecas (ELISA, 2005), que é composto por uma
biblioteca central, uma setorial, uma biblioteca infantil, uma de núcleo e cinco bibliotecas de campi.
10
2.1.5.2. Sistemas de recuperação de informação textual
Os sistemas de recuperação textual são sistemas que manipulam basicamente informações
do tipo texto (ASCII). Armazenando e manipulando todo o objeto (texto) em seu sistema. Apesar
disso, com a utilização de filtros, outros formatos que contenham textos, figuras, tabelas e imagens,
mas que possuam um aspecto de documento textual (tais como o PDF, o RTF e o DOC, também
podem ser manipulados) (WIVES, 2002, p. 34).
O sistema de busca AltaVista (2005), pois exemplo, pode ser considerado um sistema de
recuperação de informações por utiliza tecnologias da área RI (WIVES, 2002, p. 34).
2.1.5.3. Sistemas de recuperação de informação visual
Os primeiros sistemas de recuperação de informações visuais utilizavam um modelo textual
para descrever essas informações. Porém, pelo fato de diferentes pessoas compreenderem uma
figura de maneiras diferentes, a descrição de uma imagem pode variar de uma pessoa para outra.
Devendo utilizar um modelo visual de representação e descrição da informação (CHANG, 1997
apud WIVES, 2002, p. 35).
Para um sistema que manipule imagens, o ideal é que o usuário possa descrever sua consulta
utilizando imagens. Assim, o modelo perderia menos em termos de abstração e seria capaz de
recuperar informações muito mais relevantes (isso exige um sistema que utilize técnicas específicas,
cuja maioria pode ainda não existir ou não ser funcional). Exemplos desse tipo de sistemas são o
Visual SEEk, o VideoQ, (Virage e QBIC) (CHANG, 1997 apud WIVES, 2002, p. 35).
2.1.5.4. Bibliotecas Digitais
A biblioteca digital não possui uma dimensão física, utilizando toda a infra-estrutura de
comunicação existente (Internet, por exemplo) para que funcione. Decorrente disso, uma biblioteca
digital não necessita necessariamente conter o conteúdo das informações, mas sim, prover acesso
até elas (WIVES, 2002, p. 35).
A implementação desse trabalho faz uso do conceito de biblioteca digital em ambiente
WEB, constando de mecanismos para que professores e alunos do Colégio CAU cadastram e
busquem informações de qualquer computador. Este conteúdo está detalhado na seção 2.2,
Biblioteca Digital.
11
2.1.6. Técnicas de recuperação de informações textuais
Ferneda (2003, p. 20) cita que a grande maioria dos modelos de recuperação de informação
é de natureza quantitativa, baseados em disciplinas como a lógica, a estatística e a teoria dos
conjuntos.
Um sistema de recuperação de informações textuais é um sistema desenvolvido para indexar
e recuperar documentos do tipo textual, ou seja, documentos cujas informações estão descritas
através da linguagem natural (WIVES, 2002, p. 37). Este processo é possível através da seleção dos
termos mais relevantes.
Os termos são os atributos ou características de um documento. São eles que conseguem
distinguir um documento de outro. Decorrente disso, em um SRI textual as consultas do usuário são
descritas através de termos. O usuário deve escolher os termos mais adequados para caracterizar sua
necessidade de informação (CHEN, 1994 apud WIVES, 2002, p. 37).
A seguir são demonstradas técnicas de RI que influenciam diretamente na estrutura de índice
e armazenagem.
2.1.6.1. Indexação e normalização
O processo de representação ou catalogação dos documentos é a primeira etapa de um SRI.
Todo documento adicionado ao sistema deve ser analisado ou descrito para que possa ser
recuperado futuramente (WIVES, 2002, p. 49).
A próxima etapa é a construção do índice através de um processo de indexação. O índice,
permite que o sistema possa encontrar rapidamente um documento a partir de um conjunto de
termos descritos em uma consulta (ibidem).
O índice pode ser compreendido como uma espécie de filtro que é capaz de selecionar os
documentos relevantes e manter de fora os documentos irrelevantes, como exemplo na utilização de
técnicas de stopworks (LANCASTER, 1968 apud WIVES, 2002, p. 49).
No processo da indexação manual, a pessoa encarregada deve fazer a análise do conteúdo de
cada documento e identificar as palavras-chave que o caracteriza. Essas palavras, quando
adicionadas ao índice, passam a ser chamada de termos de índice (WIVES, 2002, p. 49).
12
Neste processo existe o problema de diferença de vocabulário. O documento pode ser
indexado por termos diferentes que são correspondentes ao vocabulário utilizado em cada área.
Nesse caso, geralmente, há um conjunto de termos predefinidos e específicos para cada assunto da
área em questão. Podendo ser indexado um texto com termos diferentes dependendo da área. A
pessoa encarregada de indexar os documentos deve identificar a que assunto cada um deles pertence
e utilizar então os termos adequados. Essas técnicas, denominada vocabulário controlado
(LANCASTER, 1968 apud WIVES, 2002, p. 49). Nesse caso, recomenda-se que o SRI utilize todas
as palavras possíveis de um documento como termos de índice e ofereça ao usuário ferramentas de
apoio na elaboração de consultas capazes de auxiliá-lo na escolha dos termos mais adequados
(WIVES, 2002, p. 49).
O objetivo da indexação é identificar e construir pontos de acesso para um documento. O
SRI pode permitir o relacionamento de termos durante o processo de indexação ou depois dele,
durante a consulta (ibidem).
Os índices possuem também o fator exaustividade que mede a quantidade de assuntos
distintos que um índice é capaz de reconhecer. Quanto maior a exaustividade, maior a abrangência e
menor a precisão. Quanto mais específico for um índice, maior a precisão e menor a abrangência.
Esses dois fatores podem ser manipulados por uma indexação pré-coordenada, e é possível
encontrar um nível de equilíbrio para os dois em uma população fechada de usuários
(LANCASTER, 1968 apud WIVES, 2002 p. 49).
O processo de indexação pode ser realizado manualmente ou automaticamente. O processo
manual de elaboração de índices é muito abordado pela área da biblioteconomia. Sua vantagem está
na utilização de indexador humano e sua capacidade humana em julgar relevância e categorizar os
documentos. Na área da computação os índices são criados pelo processo automatizado, sua
vantagem é permitir uma cobertura mais ampla e rápida (WIVES, 2002, p. 49; FERNEDA, 2003, p.
96).
2.1.6.2. Indexação manual
Conforme Ferneda (2003, p. 97), a indexação manual especifica uma hierarquia de assuntos,
similar às classificações encontradas em uma biblioteca tradicional. Dividindo em categorias e sub-
categorias. O sistema deve permitir que um documento tenha mais de um índice, pois cada
documento pode conter mais de um assunto.
13
Um exemplo de mecanismo de busca que utiliza a indexação manualmente é o Yahoo
(2005). O autor de uma página Web pode cadastrar a URL de sua página associando a ela uma ou
mais categorias que descrevem o assunto tratado na página, conforme na Figura 3 (FERNEDA,
2003, p. 98). Este mecanismo tem como desvantagem a dependência de usuários para fazer a
classificação, assim sempre estando incompleta. Por outro lado, tem a vantagem da consulta ser
precisa, pois o usuário só recebe a consulta da categoria escolhida.
Figura 3. Página Yahoo - Referente a categoria Biblioteca Fonte: Adaptado de Ferneda (2003, p. 98).
2.1.6.3. Indexação automática
O processo de indexação automática busca identificar palavras relevantes nos documentos
de uma coleção de documentos e armazená-las em uma estrutura de índice (WIVES, 2002, p. 50).
As fases normalmente encontradas nesse processo, são atribuídas as tarefas de programas. No caso
de um ambiente Web são chamados de spiders (aranha) ou ainda robôs, crawlers ou worms, que
iniciam a sua execução a partir de uma lista inicial de URLs (FERNEDA, 2003, p. 99-100).
Os programas fazem a identificação de termos (simples ou compostos), a remoção de
stopwords (palavras irrelevantes), à normalização morfológica (stemming) e a seleção de termos.
Para cada uma dessas etapas existem diversas técnicas conforme Figura 4. Dependendo da situação,
14
a ordem de aplicação dessas etapas pode variar ou alguma delas pode não ser utilizada (RILOFF,
1995 apud WIVES, 2002, p. 51).
Figura 4. Página Yahoo - Processo de indexação automático Fonte: Adaptado de Wives (2002, p. 51).
Para os sistemas de mecanismos de busca que utilizam a indexação automática, tem-se como
exemplo os sites AltaVista (2005) e o Google (2005) eles indexam automaticamente as páginas da
Web (FERNEDA, 2003, p. 99-100). Sendo este processo dividido em duas etapas:
1. Seleção de endereços (URLs) de páginas; e
2. Indexação das páginas, gerando para cada uma um conjunto de termos de indexação.
Os programas de seleção de URLs, utilizam as tags do HTML para poderem se orientar na
análise do documento. Por exemplo, utilizando a expressão regular “\<a href=\"(.)*\"”. Obtém-se
todos os link’s encontrados em um arquivo. Ao analisar o arquivo HTML representado na Figura 5,
têm-se os seguintes endereços "www.univali.br" e "www.google.com". Para melhorar o
entendimento de um analisador com toda a sua estrutura pode ser visto um exemplo no apêndice B.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>Untitled Document</title> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> </head> <body> <p><a href="www.univali.br">universidade</a></p> <p><a href="www.google.com">meta busca </a> </p> </body> </html>
Figura 5. Arquivo HTML com demonstração de endereços de internet
15
2.1.6.4. Identificação de termos
Esta etapa consiste na aplicação de um analisador léxico que identifique as palavras
presentes nos documentos, ignorando os símbolos, espaço e caracteres de controle de arquivo ou de
formatação. Sendo como uma seqüência de caracteres alfanuméricos, contíguos e sem espaços. As
palavras identificadas nesta etapa devem ser padronizadas para maiúsculas ou minúsculas
(SANTOS, 2002, p. 7-9; WIVES, 2002, p. 51).
O analisador léxico tem a função de identificação, normalização e padronização de um
documento. Por exemplo, o analisador léxico utiliza a expressão regular, “\>([^>])*\<” para
identificação de termos representado na Figura 6.
//Documento original <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>Untitled Document</title> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> </head> <body> <p><a href="www.univali.br">universidade</a></p> <p><a href="www.google.com">meta busca </a> </p> </body> </html>
Figura 6. Demonstração do analisador léxico
Nesta etapa, pode ser utilizado um dicionário a fim de fazer a validação das palavras e sua
existência e corrigir possíveis erros ortográficos (dictionar lookup). Um dicionário de sinônimos
pode auxiliar na normalização do vocabulário, caso deseje-se trabalhar com um vocabulário
controlado (SALTON, 1983 apud WIVES, 2002, p. 52).
Há diversas técnicas aplicadas no momento da seleção de termos, sendo elas a passagem de
todos os caracteres para a forma maiúscula (ou minúscula); a substituição de múltiplos espaços e
tabulações por um único espaço; a padronização de datas e números, bem como a eliminação de
hífens. Se uma técnica for adotada, ela também deve ser aplicada na consulta do usuário (WIVES,
2002, p. 52).
16
2.1.6.5. Identificação de termos compostos
Alguns termos são compostos de duas ou mais palavras, a fim de expressar um único termo.
Por exemplo, banco de dados, sistema operacional. Quando isso ocorre, essas palavras não podem
ser separadas quando forem indexadas.
Conforme Wives, (2002, p. 53) existem basicamente duas formas de identificação de
expressões. A primeira é feita com base na identificação de termos que ocorrem com freqüência em
uma coleção de documentos. A segunda, consiste na utilização de um dicionário de expressões que
indique quais palavras devem ser combinadas.
A utilização dessas técnicas torna a busca mais precisa, já que os termos compostos
costumam aparecer em um número menor de documentos, tornando a consulta menos abrangente.
Porém, deve ser armazenado no índice, o termo composto de formas combinadas e separadas, a fim
de não limitar a consulta do usuário (WIVES,2002, p. 53).
Caso não sejam aplicadas as técnicas de identificação de termos compostos, o sistema deve
permitir ao usuário, especificar em sua consulta a informação representada por termo composto.
Isso pode ser feito indicando que dois ou mais termos devem aparecer no mesmo documento. Em
alguns sistemas é possível especificar a distância máxima que esses termos devem ser encontrados,
definindo quantas palavras pode estar entre os termos (SALTON, 1983 apud WIVES, 2002, p. 53).
RILOFF (1995 apud FERNEDA, 2003, p. 86) cita um problema da utilização de termos
compostos juntamente com técnicas comuns de recuperação de informação. Como a utilização de
stopwords e a normalização das variações lingüísticas dos termos não permitem a análise de termos
como por exemplo, “morto a tiros”, pois a técnica de stopwords retira o termo “a” e a normalização
retira o “s” da palavra “tiros” retornando o termo para sua forma singular. Isso torna a pesquisa
imprecisa, por buscar os termos “morto tiro”, podendo retornar documentos não necessários ao
usuário.
2.1.6.6. Remoção de stopwords
Algumas palavras presentes em um documento textual são utilizadas com o intuito de
conectar as frases, não deverão ser adicionadas a estrutura de índice, devido sua baixa relevância ao
conteúdo em si. Essas palavras têm como finalidade auxiliar a estruturação da linguagem (tais como
conjunções e preposições) (WIVES, 2002, p. 52).
17
Documento normalizado Documento sem stopwords
...na maioria das vezes os documentos retornados pelas ferramentas de recuperação de informações evolvem um contexto mais amplo fazendo com que o usuário tenha que garimpar ou seja especificar ou filtrar estes documentos e que demanda tempo e conhecimento a fim de obter a informação que ele realmente necessita...
... maioria vezes documentos retornados ferramentas recuperação informações evolvem contexto fazendo usuário garimpar especificar filtrar documentos demanda tempo conhecimento fim informação realmente necessita...
Stopwords são palavras que ocorrem freqüentemente em textos, conforme demonstrado na
Figura 7. Uma vez que elas são muito comuns, sua presença não contribui significativamente para a
determinação do conteúdo do documento (SANTOS, 2002, p. 10).
Figura 7. Identificação de stopwords Fonte: Adaptado de Wives (2002, p. 51).
Neste trabalho, utilizar-se-á uma lista de stopwords, colocada no apêndice D, cujos
elementos são adicionados manualmente. O algoritmo varre todo o texto em questão à procura das
palavras contidas nesta lista, removendo-as ao encontrá-las.
2.1.6.7. Normalização morfológica
Durante o processo de indexação, torna-se interessante eliminar as variações morfológicas
de uma palavra. As variações morfológicas são eliminadas através da identificação e retirada dos
prefixos e os sufixos, resultando os radicais, que são adicionados à estrutura de índice. Essa técnica
de identificação de radicais é denominada stemming, que em inglês significa reduzir uma palavra ao
seu radical (ou raiz) (FRAKES, 1992 apud WIVES, 2002, p. 53).
Este processo de stemming pode resultar palavras de categorias diferentes. Por exemplo,
“construção” e construiremos seriam reduzidos a “constru”, no processo de stemming (FERNEDA
2003, p. 86). As características de gênero, número e grau das palavras são também eliminadas nesta
etapa. Isso significa que várias palavras acabam sendo mapeadas para um único termo, o que
aumenta a abrangência das consultas (WIVES, 2002, p. 53).
Com essa técnica o usuário não necessita preocupar-se com a forma ortográfica com a qual
uma palavra foi escrita no texto original. Assim, uma idéia, independente de ter sido escrita através
18
de seu substantivo, adjetivo ou verbo, é identificada por um mesmo (e único) radical. Essa aparente
vantagem ocasiona uma diminuição na precisão, já que o usuário não consegue mais procurar por
uma palavra específica (WIVES, 2002, p. 53).
Existem várias formas de identificação do radical de palavras (FRAKES, 1992 apud
WIVES, 2002 p. 53-54). Uma delas consiste na definição de uma lista de prefixos e ou sufixos
comumente encontrados no vocabulário de uma língua. Toda vez que um desses prefixos ou sufixos
for encontrado, ele é retirado do termo. Um dos problemas dessa técnica é que, dependendo da
língua ou do contexto, o padrão encontrado nem sempre corresponde a um prefixo ou sufixo, pois
ele pode fazer parte do radical da palavra (o sufixo “ual” deve ser retirado de “fatual”, mas não de
“igual”). Outra solução consiste na utilização de um dicionário morfológico onde o radical de cada
palavra poderia ser identificado corretamente (KOWALSKI, 1997 apud WIVES, 2002, p. 54).
2.1.7. Estruturas de armazenamento
A estrutura de arquivos invertidos, com as árvores TRIE e PAT são as estruturas mais
comuns e eficazes para a área de recuperação de informações textuais. Baseiam-se em caracteres e
em sua ordenação alfabética (WIVES, 2002, p. 54). A seguir apresenta-se o significado de um
arquivo invertido e na seção seguinte um método de assinatura que utiliza a estrutura baseada em
acesso direto (hash).
2.1.7.1. Arquivos invertidos
A denominação “arquivo invertido” aplica-se ao tipo de índice que aponta os documentos
que contém os diversos termos de um texto. Seguindo essa definição, um arquivo invertido
apresenta, para cada termo do dicionário, uma lista invertida, isto é, um conjunto de números de
documentos contendo o termo, demonstrada na Figura 8 (NEUBERT, 2000). O arquivo invertido é
uma lista (ou índice) ordenada por chaves, onde cada chave contém uma ligação para os
documentos que a contém. Basicamente, a estrutura permite que um único termo aponte para vários
documentos. Este é o tipo de índice mais utilizado em sistemas de bibliotecas (WIVES, 1997;
MOREIRA, 2005).
19
Figura 8. Estrutura de uma lista invertida Fonte: Wives (1997, p. 59).
Essa estruturação de arquivo invertido é vantajosa na questão do aumento da eficiência de
busca em arquivos de texto, mas por outro lado o espaço de armazenamento do índice pode ser
cerca de 10 a 100 vezes maior que o tamanho do conteúdo do documento (MOREIRA, 2005).
Geralmente é composta por três arquivos: o dicionário ou lista de termos, a lista de inversão
e os documentos. A entrada para o índice é o dicionário, uma lista que contém todos os termos de
uma coleção de documentos indexados. Ao ser localizada a palavra no dicionário, identifica-se sua
lista invertida de documentos corresponde (WIVES, 2002, p. 59).
O dicionário pode ser implementado em alguma estrutura mais eficiente, tal como uma
TRIE ou árvore-B, e pode conter qualquer tipo de informação necessária ao sistema, tal como a
freqüência ou relevância das palavras nos documentos (WIVES, 2002, p. 59).
2.1.7.2. Método da assinatura
O objetivo do método da assinatura é prover um teste que indique rapidamente quais são os
arquivos mais relevantes à consulta do usuário. Os termos que passam pelo teste podem então ser
passados diretamente para o usuário, ou ainda, serem avaliados por algum outro método de
filtragem que identifique os documentos mais relevantes (WIVES, 2002, p. 60).
20
Os termos são mapeados para um código com tamanho prefixado de bits, sendo este a
assinatura. Esse código é estabelecido por uma função hash (KOWALSKI, 1997 apud WIVES,
2002, p. 61). Uma função de hash, é uma operação unidirecional que transforma uma string de
dados de qualquer tamanho em um valor de tamanho menor e fixo. Nenhuma combinação de duas
strings de dados produzirá o mesmo valor de hash (SYMANTEC, 2005).
A Tabela 1 demonstra que existem diversos métodos de assinatura, sendo comumente
usados o MD5 (Message Digest 5) e o SHA (Secure Hash Algorithm), muito utilizados nos scripts
PHP de criptografias, sendo que ambas são unidirecionais.
Tabela 1. Algoritmos Hash
Algoritmos Tamanho Inventor Adler-32 32 bits CRC-16 16 bits CRC-16-CCITT 16 bits CRC-16-XMODEM 16 bits CRC-32 32 bits CRC-64 64 bits eDonkey-2000 128 bits ELF-32 32 bits FCS-16 16 bits FCS-32 32 bits FNV (FNV-32/FNV-64) 32/64 bits GHash (GHash-32-3, GHash-32-5) 32 bits
GOST-Hash 256 bits
HAVAL (3/4/5 passes, 256 bits) 256 bits Zheng, Pieprzyk, Seberry
MD2 128 bits Rivest MD4 128 bits Rivest MD5 128 bits Rivest RIPEMD-128/RIPEMD-160 128/160 bits SHA-1 160 bits NIST/NSA SHA-2 (SHA256/SHA384/SHA512) 256/384/512 bits NIST/NSA
SizeHash-64 64 bits - Tiger 192 bits Anderson, Biham XUM-32 32 bits
Fonte: Adaptado de Sourceforge (2005).
O MD5 é uma função de hash desenvolvida por Ron Rivest do MIT (Massachusetts Institute
of Tecnology), que produz um valor hash de 32 caracteres, visto na Figura 9 (CERT-RS, 1997).
21
O SHA é o Algoritmo de Hash seguro, uma função de hash inventado no NSA. Ele produz
um valor de hash de 40 caracteres, visto na Figura 9 (CERT-RS, 1997).
Figura 9. Método de assinatura
O Método de assinatura tem como característica básica que o endereço de cada termo é
determinado em função do valor de sua chave primária. Este é o meio mais rápido de acesso aos
termos, basta ter o valor da chave primária do termo e calcular o endereço pela função hash. (LOH,
1999).
Os termos da consulta do usuário também devem ser mapeados para a assinatura
correspondente. A busca é realizada através de comparação direta entre os bits da assinatura da
consulta e as assinaturas de documentos dos bits especificados pelas palavras da consulta (através
de uma leitura linear no arquivo de assinaturas) (WIVES, 2002, p. 61).
2.1.8. Busca e visualização
A necessidade de informação do usuário é representada através de sua expressão de busca,
que pode ser especificada em linguagem natural ou através de uma linguagem artificial, e deve
resultar na recuperação dos documentos que possibilite a verificação de cada um deles a fim de
selecionar os que são úteis (FERNEDA, 2003, p. 18).
O usuário ao buscar informações, interage com o SRI. O sistema mapeia a necessidade da
informação desejada pelo usuário para uma linguagem abstrata, na linguagem utilizada pelo SRI, a
fim de descrevê-la. É através dela que o SRI vai poder identificar os termos de que o usuário
necessita e analisar se esses termos são relevantes para o usuário (WIVES, 2002, p. 66). Porém,
mesmo utilizando uma expressão de busca, a representação de um documento não significa que o
Mensagem
biblioteca digital
Função Hash MD5
788155fd0f2e77edd5d76793f95a34b8 acc28d4112435748590e1a25452bc66b65de22ce
Função Hash SHA
22
documento seja relevante para a necessidade do usuário. O termo presente na representação do
documento pode estar em um contexto diferente à necessidade do usuário ou ser muito antigo cuja
sua informação se tornou irrelevante (ibidem).
A consulta é o formalismo com o qual o usuário comunica-se com o sistema. É nela que o
usuário especifica sua necessidade de informação, definindo a que assuntos os documentos devem
pertencer quando retornados. Devido a isso, ela deve ser especificada corretamente para que os
documentos relevantes sejam retornados (WIVES, 2002, p. 66-67).
A visualização das consultas é dada em uma lista de documentos, que deve estar organizada
de alguma forma. Geralmente essa lista é ordenada em uma espécie de ranking onde os documentos
mais relevantes são mostrados primeiro. O SRI pode permitir que o usuário ordene os documentos
da lista de acordo com algum critério (título, autor, data, conteúdo ou resumo) a fim de facilitar a
localização e análise dos documentos mais relevantes (WIVES, 2002, p. 67-68).
Além de retornar os documentos relevantes, torna-se necessário que o SRI informe para o
usuário o porquê dos mesmos terem sido recuperados. Uma forma de fazer isso é selecionar os
trechos do documento que contenham as palavras da consulta e mostrá-los para o usuário (WIVES,
2002, p. 68-69).
2.2. BIBLIOTECA DIGITAL
Com a invenção da escrita surgiu à necessidade de serem guardados documentos de uma
forma segura e organizada, criando a definição de biblioteca tradicional. Nela a maioria dos itens é
constituída de documentos em papel. Antes do aparecimento da imprensa, em 1440, os acervos
eram formados por outros tipos de materiais (como o tablete de argila, o papiro e o pergaminho).
Uma característica da biblioteca tradicional é que tanto a coleção como o seu catálogo utiliza o
papel como meio de registro da informação (CUNHA, 1999, p. 258).
Com o avanço das tecnologias da informação, dos meios de comunicação e da internet, as
pessoas são “inundadas” por uma “avalanche” de informações, tornando difícil o processo de
armazenando e recuperação das informações. Para auxiliar neste processo, a biblioteca digital
oferece ao usuário uma seleção, organização, avaliação das informações e estratégias de busca para
explorar a imensa coleção de dados e orientar o seu usuário na montagem do seu conhecimento
(ALVES; MENDES, 2000).
23
Com as mudanças da transmissão da informação, necessitou também alterar o modelo da
biblioteca. A Biblioteca Tradicional, baseada na posse da informação em uma estrutura física real,
para a Biblioteca Digital, cuja importância é facilitar o acesso à informação disponível em meios
digitais. Há inúmeras definições para Biblioteca Digital. Os termos, mais freqüentemente usados
são “Bibliotecas Virtuais”, “Bibliotecas Eletrônicas” e “Bibliotecas Sem Paredes” (ibidem).
A Biblioteca do Futuro é sem paredes, por possibilitar o acesso à distância a seus catálogos, sem a necessidade de se estar fisicamente nela. É eletrônica, porque seu acervo, catálogos e serviços são desenvolvidos com suporte eletrônico. E é virtual, porque é potencialmente capaz de materializar-se via ferramentas que a moderna tecnologia da informação e de redes coloca à disposição de seus organizadores e usuários (ALVES e MENDES, 2000).
Neste projeto, segue-se as definições da ASIS (American Society for Information Science),
citado por Andrade e Baraúna (2002), que define as Bibliotecas Virtuais como “sistemas nos quais
os recursos são distribuídos via rede, independentemente de sua localização física num determinado
local” ao passo que as Biblioteca Digitais “são serviços de informação cujos conteúdos estão
originalmente em forma eletrônica e são acessados local ou remotamente por meio de redes de
comunicação”.
A biblioteca digital tem um contexto mais amplo do que um depositório de livros e revistas,
entre outros. Tem como característica básica, manter um conjunto mais diversificado de
informações, que abrange desde as bibliografias básicas das disciplinas até o material de aula dos
professores, passando por fotos, vídeos e sons (GONZALEZ; LIMA, 2001, p. 101-102).
Na criação de uma biblioteca digital, é necessária a construção de uma cultura que vai desde
a definição de uma política de trabalho, para digitalização de documentos, até o modelo completo
de uma biblioteca digital (ibidem).
A biblioteca é uma componente integrante da construção do conhecimento. Através de um
processo de adaptação, onde o sujeito assimila a nova informação através de uma abstração do
objeto do conhecimento já existente. Portanto, o conhecimento não é cumulativo e linear, isto é, o
sujeito precisa ter alguns esquemas de informação já organizados para fazer classificações,
generalizar e relacionar a nova informação. Essas habilidades tornam-se importantes na sociedade
contemporânea devido à necessidade de formação de homens autônomos. Uma abordagem
construtivista é a mais adequada ao ambiente de biblioteca digital, pois desenvolve pessoas com
habilidades e competências para localizar a informação no espaço virtual. Um espaço onde os
24
estudantes precisam aprender a identificar o que é importante para que possam construir o seu
conhecimento (ALVES; MENDES, 2000).
Nessa construção do conhecimento a biblioteca digital deve proporcionar duas linhas
distintas: (i) promover aumento no volume do acervo digital de apoio, que atenda ao professores
que se propõem a elaborar seu próprio material junto as seus alunos; (II) atender aos professores
que querem apenas utilizar este tipo de material de apoio, sem a necessidade de criá-los
(GONZALEZ; POHLMANN FILHO; BORGES, 2000).
2.2.1.1. Informática educacional
Numa sociedade virtual que cresce a cada dia, é necessário propor novos meios de se valer
dos mesmos recursos sofisticados que a tecnologia oferece e aplicá-los na educação (SANTOS,
1997, p. 80).
A informática educacional traz como perspectiva uma utilização de ferramentas digitais que
auxilie no processo pedagógico, caracterizando-se pelo uso do computador como ferramenta para
resolução de problemas ou também chamados projetos. Os projetos são atividades desenvolvidas,
onde grupos de alunos são orientados a desenvolver determinado tema. Podem usar todos os
recursos que tem direito e acesso, consultar bancos de dados, rede internet, troca de informações e
participação de listas de discussões, entre outros. Neste processo, não há uma participação efetiva
de um especialista, ao se desenvolver um determinado tema, sendo apenas auxiliado pelo professor
(BORGES NETO, 1999, p. 1-3).
O uso dos computadores como ferramenta pedagógica em salas de aula, abrange muito mais
do que a simples implantação de máquinas e adequação de programas a conteúdos ou metodologias.
Para utilizar as tecnologias da informação e comunicação de maneira crítica e produtiva deve haver
uma nova leitura do processo de comunicação e de educação numa sociedade em rede. Deve-se
buscar compreender esse novo tempo em que estes processos acontecem e não apenas aprender a
aplicar recursos multimídia na educação (GALLO, 2002).
A informática funciona como agente de propagação de conhecimento, colocando-se a
serviço da educação. Ela funciona como um meio didático, na medida em que pode oferecer
representação específica de um saber, facilidades de manuseio, feedback e uma possibilidade para
25
acompanhar, à distância, a construção de um procedimento realizado pelo aluno, observando suas
incertezas e hesitações até que ele encontre o seu caminho (BORGES NETO, 1999, p. 6).
2.2.1.2. Biblioteca no ensino
A prática normal e correta nas instituições de ensino, é fornecer para cada disciplina uma
lista bibliográfica, sendo que esse material deve ser fácil. É de fundamental importância o papel da
biblioteca estabelecida fisicamente na própria instituição de ensino. Porém, indivíduos residindo em
locais pouco desenvolvidos, com bibliotecas e livrarias precárias ou mesmo inexistentes não têm
acesso a um acervo adequado e necessário para o correto desenvolvimento das disciplinas e
aquisição do seu conhecimento. Para suprir está necessidade, além dos esforços dos educadores
para desenvolver material didático, as novas tecnologias de informação tornam possíveis a
disponibilização de acervo das diversas bibliotecas digitais, utilizando como meio a internet
(GONZALEZ; POHLMANN FILHO; BORGES, 2001, p. 101).
Na utilização de bibliotecas digitais permite a expansão dos horizontes do ensino e da
pesquisa, tornando praticamente ilimitada a liberdade dos educadores para indicar material
bibliográfico, sem a preocupação com conceitos como lugar e quantidade disponível (GONZALEZ;
POHLMANN FILHO; BORGES, 2000).
2.2.1.3. Informática na sala de aula
A questão da tecnologia aplicada ao ensino é uma discussão que coloca as pessoas ligadas à
educação em um dilema, ora existe tecnologia e os professores não sabem lidar com ela, ora os
professores sabem lidar, mas falta o suporte necessário para que se desenvolva, a contento, o seu
trabalho com o auxílio da tecnologia (SANTOS, 1997, p. 75).
No modelo tradicional preenche-se uma sala de computadores, chamando de laboratório de
informática, contrata-se um especialista em informática, às vezes com alguma formação em
educação, para gerenciar o laboratório. Não considerando que o professor de sala de aula, aquele
que é o especialista, o professor de matemática, o de ciências, o de linguagem, o que eles podem
obter de ganhos em sua sala de aula com a introdução da informática. Sendo que o professor
continua na sua sala de aula, tradicional, sem saber como transformar essa nova ferramenta de
informação em atividade de ensino e aprendizagem. A única interação entre a sala de aula e o
laboratório de informática, e a solicitação do professor da disciplina, para que o responsável do
26
laboratório prepare alguma atividade para os seus alunos sobre certo conteúdo (BORGES NETO,
1999, p. 3-4).
A introdução de computadores na escola pode provocar transformações, mas essa passa
necessariamente, pela (trans)formação daqueles que vão utilizar em seu ambiente profissional, no
caso os professores, que são os principais agentes da inovação educacional. Sem eles nenhuma
mudança persiste, nenhuma transformação é possível (MOURA, 2005).
Em uma biblioteca digital, podem ser disponibilizadas na mesma plataforma, apostilas,
livros, vídeos, sons e assim por diante. Permitindo ao professor e aluno não só buscar a informação
de forma integrada, como também produzir novos documentos. O professor deve incentivar e
monitorar as atividades de produção desses novos documentos, pois poderá ser disponibilizado para
pesquisas futuras, ao ser inserido este novo documento no acervo.
2.2.2. Benefícios da implantação de uma Biblioteca Digital
As bibliotecas digitais, além das atividades oferecidas pelas bibliotecas tradicionais, têm
características próprias, conseqüências da opção digital, que possibilitam a otimização do uso das
tecnologias da informação agregando valores aos serviços oferecidos (CRUZ, 2004).
A implantação da biblioteca digital trará benefícios para o processo de ensino do CAU,
possibilitando o acesso à informação dos demais alunos e professores. Segundo Cruz (2004), entre
os principais benefícios destacam-se:
I. Prover o acesso às informações a qualquer hora e a partir de qualquer lugar,
possibilitando o uso simultâneo, por várias pessoas do mesmo objeto digital;
II. Prover o acesso às coleções de informações multimídia, construídas com base em
texto;
III. Suporte de forma amigável ao usuário, através da personalização do acesso à
informação e a eliminação do excesso de informação;
IV. Divulgação da Instituição no cenário nacional de maneira a possibilitar uma maior
projeção da mesma;
V. Maior visibilidade e avaliação pelos pares da produção cientifica e dos grupos de
pesquisa da Instituição;
27
VI. Recuperação rápida e eficiente da informação;
VII. Maior cuidado com a qualidade do material devido à exposição na Internet – avaliação
continuada de diferentes públicos;
VIII. Manutenção de todas as versões dos materiais produzidos pelo curso e
disponibilizados para os alunos;
IX. Reunião de todos os materiais digitais disponibilizados, facilitando a captura dos
mesmos pelos alunos e professores;
X. Controle dos acessos aos objetos digitais fornecendo dados confiáveis para elaboração
de relatórios;
XI. Registro da memória da produção institucional; e
XII. Preservação do material em formato digital e impresso, uma vez que o desgaste
decorrente do manuseio e das condições climáticas deixará de existir.
2.2.3. Planejamento de uma Biblioteca Digital
Com base nas definições apresentadas por Marchiori (1997) e Cruz (2004), são identificadas
sete etapas que devem ser consideradas no planejadas da biblioteca digital, sendo elas:
1. Aquisição dos documentos
O processo de criação e captura dos documentos digitais envolve os processos de análise e
definição dos objetos a serem disponibilizados na biblioteca digital. Compreende a disponibilização
de um documento no formato digital e a transformação de um documento de formato não-digital
para o formato digital, utilizando ferramentas de edição de textos.
Segundo Dias (2002, p. 21), há disponível no mercado uma variedade de ferramentas
voltadas para a elaboração de textos, desde processadores de textos bastante populares como o
Microsoft Word até ferramentas mais simples para a elaboração de páginas HTML, tais como o
Composer, que faz parte do navegador Netscape.
No final desta etapa, têm-se a na transformação de documentos já capturados no formato
digital, para um formato padrão único, assim podendo ser indexado na base de dados.
28
2. Preservação e manutenção dos documentos
O armazenamento dos objetos digitais envolve sempre grandes e crescentes quantidades de
informação que devem ser preservadas indefinidamente. Para garantir a integridade dos documentos
e seus respectivos conteúdos é necessário: (i) definir a forma de armazenamento; (iii) gerenciar a
distribuição dos objetos digitais nos servidores; (iii) providenciar os backup, e (iv) garantir a
capacidade de incorporar novas tecnologias.
3. Recuperação da informação
Para a indexação dos documentos digitais é necessário utilizar-se uma padronização dos
termos ao inserir na base de dados que permita a recuperação e o acessar aos documentos. Para isso
deve-se: (i) implementar ferramentas que possibilitem além da busca de campos tradicionais como
autor, título, assunto, palavras-chaves, também a pesquisa no conteúdo dos documentos digitais, tais
como no texto completo e no conteúdo das imagens, entre outros; (ii) implementar ferramenta de
busca que possibilite a utilização da lógica booleana, linguagem natural, e (iii) técnicas de
inteligência artificial
4. Distribuição dos documentos
A distribuição dos documentos digitais necessita de uma infra-estrutura física de
comunicação que possibilite o acesso a todo conteúdo armazenado na base de dados, em tempo
integral.
5. Compartilhamento dos documentos
Prover mecanismos que possibilita interligar as coleções de documentos entre bibliotecas, de
diversas instituições, através de documentos e comunicação padronizados.
6. Uso da biblioteca digital
Deve ser oferecido um treinamento para a utilização da biblioteca digital, que visa otimizar a
busca dos documentos. O treinamento deverá ser oferecido primeiramente para os tutores de sala e
em seguida para os alunos do curso. Mas deverá ter uma ajuda on-line para que o usuário possa por
si próprio apreender a utilizar a ferramenta.
29
7. Interação social
Estabelecer inicialmente o procedimento a ser adotado junto aos autores (professores
especialistas, pesquisadores e professores da Instituição), a fim de garantir que os documentos
sejam disponibilizados na biblioteca digital. Para isso faz-se necessário desencadear junto à
Assessoria Jurídica da Instituição uma discussão ampla, com a participação dos diferentes
segmentos envolvidos, para a elaboração de um documento com as definições dos direitos autorais,
visando à preservação tanto da autoria quanto da instituição.
2.2.4. Os direitos autorais
Um dos problemas mais discutidos pelos desenvolvedores e pesquisadores das bibliotecas
digitais é a questão dos direitos autorais. Sem dificuldade nenhuma, um leitor/internauta pode
colocar uma obra, de sua autoria ou de terceiros, disponível a milhares de pessoas (DINIZ, 2005).
Assim criando uma relutância por parte dos autores em disponibilizar sua obra em um ambiente
com muitas facilidades para leitura, cópia e impressão das obras.
Na criação de um acervo digital, deve-se considerar à aquisição das obras digitais e o
pagamento dos direitos autorais. Deve-se mudar o paradigma de aquisição dos exemplares da obras,
para aquisição de número de licenças da obra digital. Isto causa profunda transformação na
negociação dos direitos autorais, pois o objetivo dos autores e editores deixa de ser o de “vender um
exemplar da obra” e passa a negociar um contrato de distribuição de um único exemplar digital e
suas licenças de uso.
É difícil respeitar a legislação de direito autoral com material impresso e as copiadoras, esse
controle se torna praticamente impossível com a informação digital. Este é um dos fatores por que a
maioria das bibliotecas trabalha apenas com obras de domínio público (DINIZ, 2005).
2.2.5. Documentos digitais
O foco principal de uma biblioteca digital é o documento eletrônico ou documento digital,
sendo todo registro gerado ou recebido por uma entidade pública ou privada, no desempenho de
suas atividades, armazenado e disponibilizado ou não, através de sistemas computacionais
(SANT’ANNA, 2005).
30
O documento original, cujas informações tenham sido julgadas de valor permanente, deve
ser preservado pela organização que o criou, ou por alguma instituição arquivística que seja
responsável pela sua guarda permanente. Mas com o uso intenso de um documento durante um
longo período ele se torna inutilizável, devendo-se providenciar sua restauração ou seu descarte
(ibidem).
Na utilização do documento digital preservar o documento original, muitas vezes esse tem
valor histórico. Pois o usuário utiliza apenas uma copia digital. Mas uma questão importante a ser
levantada é a necessidades de preservação e garantia de autenticidade dos documentos digitais.
2.2.6. Preservação dos documentos
A preservação da informação deve ser considerada na implementação de uma biblioteca
digital. Apesar dos meios físicos de armazenamento (fita, cartucho digital, disco magnético e CD-
rom) comportar grande volume de informação, tem durabilidade em media de 10 a 20 anos. Os
meios de suporte tem uma constante obsolescência dos equipamentos e programas. Assim, à medida
que os sistemas computacionais são alterados, também os suportes que registram a informação
digital devem ser mudados (CUNHA, 1999, p. 265).
Deve-se garantir a geração de novos materiais, mantendo as informações atualizadas e
constantes no acervo. Esse investimento deve ser levado em consideração no momento de discutir
os direitos de uso e reuso dos objetos digitais, junto com a contratação de mão de obra técnica
especializada. Se não houver nenhum plano administrativo que cubra esses itens, nenhuma
manutenção do acervo em longo prazo será bem-sucedida (KEMPINAS, 2004, p. 5-8).
Uma característica importante do acervo é a capacidade de manter todas ou algumas
versões de um mesmo documento. Entretanto, em cada um deles será necessário acrescentar ou
apagar as hiperligações desses objetos. Esse problema poderá ser crucial num acervo jurídico, onde
a validade legal de direitos ou deveres deverá ser emanado a partir de um texto consolidado ou
aprovado por uma determinada autoridade (CUNHA, 1999, p. 265).
31
2.3. FERRAMENTAS SEMELHANTES
Existem inúmeras bibliotecas digitais que podem ou não estarem em ambiente Web, cada
qual tem um modelo e utilizam técnicas de recuperação de informação diferente.
A seguir são demonstradas características de duas bibliotecas digitais. Ambas têm como
foco de seu acervo de dissertação e estão em ambiente Web. A escolha dessas se deve por se
assemelhar com os requisitos a serem cumpridos neste trabalho, pois o sistema desenvolvido
proverá no seu acervo trabalhos desenvolvidos por professores e alunos do CAU. A seguir
demonstram-se alguns exemplos:
2.3.1. Biblioteca Digital de Teses e Dissertações da UFRGS – BDTD
Tem como objetivo divulgar a produção intelectual gerada no âmbito da UFRGS, tornando-a
acessível universalmente via internet. Seu desenvolvimento fui idealizado pela Biblioteca Central
em parceria com o Centro de Processamento de Dados, a Pró-Reitoria de Pesquisa e a Pró-Reitoria
Adjunta de Pós-Graduação da Universidade Federal do Rio Grande do Sul (OLIVEIRA et al, 2003).
Sendo uma biblioteca digital, tem a função de organizar, conservar, facilitar o acesso e o uso
de trabalho otimizado pelo advento da biblioteca digital, produto dos avanços da informática e das
telecomunicações associadas às tradicionais técnicas de tratamento da informação utilizadas nas
bibliotecas (ibidem).
Esta biblioteca utiliza um sistema de recuperação de informação bibliográfica, pois a
consulta pode ser feita apenas por campos, conforme Figura 10.
32
Figura 10. Mecanismo de busca BDTD - UFRGS Fonte: BDTD-UFRGS (2005).
A BDTD é formada por um conjunto de metadados capturados do Banco de Dados SABi
(Sistema de Automação das Bibliotecas) e está customizado a partir do sistema aberto Aleph
(Automated Library Expandable Program), conforme a Figura 11(OLIVEIRA, 2003).
Figura 11. Forma de acesso aos Metadados Fonte: Oliveira (2003).
33
2.3.2. Biblioteca Digital da UNICAMP
Este sistema tem como finalidade a publicação do conteúdo das teses e dissertações nas
bibliotecas digitais, tendo a Internet como um mecanismo de comunicação de alcance mundial,
instantâneo, interativo e multidirecional, possibilitando o acesso ilimitado e sem fronteiras a esse
importante repertório do conhecimento gerado (VICENTINI; BLANCO, 2005).
Tem como característica principal a utilização de um mecanismo de busca baseado em
índice. O indexador utilizado (software htdig) para o mecanismo de busca, pois mantém uma base
de dados própria otimizada para realizar as buscas. Essa característica garante a performance no
tempo de resposta quando da submissão de uma pesquisa, independentemente da quantidade de
documentos no banco digital. O sistema recupera palavras encontradas tanto nos campos indexados,
quanto no conteúdo do documento em PDF (ibidem). O sistema de busca pode ser visto na Figura
12, e o resultado na Figura 13.
Figura 12. Mecanismo de busca da biblioteca digital da UNICAMP Fonte: BD-UNICAMP (2005).
34
Figura 13. Resultado da busca da biblioteca digital da UNICAMP Fonte: BD-UNICAMP (2005).
Vicentini e Blanco (2005), demonstram na Tabela 2 uma análise dos indicadores de
qualidade identificados na Biblioteca Digital da Unicamp.
Tabela 2. Indicadores de qualidade
DESEMPENHO Variáveis Características
Armazenamento dos Documentos
Integridade do documento digital; Espaço em disco; Controle de vírus; Facilidade e rapidez na inserção; Dados de conteúdo e informações adicionais; Indexação dos arquivos; Integração de dados.
Mecanismo de Busca Grau de recuperação dos documentos. Controle de Acesso Registro de quem realiza visitas e downloads. Cadastro de Visitantes Identificação dos usuários que acessam as teses e dissertações.
Estatísticas Indicadores de downloads.
35
Tabela 2. Indicadores de qualidade de (Continuação)
CONFORMIDADE Variáveis Características
Atores Ações realizadas pelos personagens; Definição de quem faz o que?
Arquitetura da Informação
Grau de organização das informações.
Metadados Padrões para a descrição dos dados. Integração e interoperabilidade
Utilização de protocolo de comunicação e protocolo de coleta automática dos metadados (harvesting); Utilização de tecnologia de software livre.
DURABILIDADE Variáveis Características
Novas Implementações
Realização de upgrade de software e hardware.
Segurança Política de backup. Documentação do software e da metodologia.
Preservação do documento
Política de preservação do documento digital.
Fonte: Adaptado de Vicentini e Blanco (2005).
3. PROJETO
O projeto proposto e implementado neste trabalho tem como objetivo a criação de um
Sistema Biblioteca Digital, que irá proporcionar aos professores a armazenagem de documentos
digitais em sua base de dados. Permite aos usuários pesquisarem através do sistema de recuperação
de informação, sendo que esta pesquisa pode ser por termos relevantes encontrados nos
documentos, ou por campos tradicionais como título e autor entre outros. No sistema há um módulo
de apoio ao ensino, que auxilia o professor no uso do laboratório de informática no momento de
ministrar sua aula e permite definir um questionário para que o aluno possa responder.
O sistema foi desenvolvido na linguagem PHP utilizando banco de dados MYSQL. Estas
foram às ferramentas escolhidas por serem de conhecimento e por estarem disponíveis nos
servidores do CTTMAR.
3.1. REQUISITOS
3.1.1. Requisitos funcionais
Requisitos funcionais são as funções que o sistema realiza – ou seu comportamento perante
aos usuários. São os requisitos que o sistema deve contemplar. Segue abaixo os requisitos para o
sistema desenvolvido (Figura 14):
Figura 14. Requisitos funcionais
37
3.1.2. Requisitos não funcionais
Requisitos não funcionais são propriedades ou qualidades do sistema que podem especificar
os aspectos que quantificam um determinado comportamento. Segue abaixo os requisitos não
funcionais para o sistema desenvolvido:
3.1.2.1. Segurança
O sistema requer algum tipo de segurança para o usuário professor. É composto por
matrícula e senha, conforme Figura 15.
Figura 15. Requisitos de segurança
3.1.2.2. Confiabilidade
O sistema deve manter a integralidade dos documentos e relatórios, conforme Figura 16.
Figura 16. Requisitos de confiabilidade
38
3.1.2.3. Software e hardware
Descreve as características necessárias na implementação do sistema conforme Figura 17.
Figura 17. Requisitos de software e hardware
3.1.2.4. Interface
Descreve as características necessárias para desenvolvimento da interface, conforme a
Figura 18.
Figura 18. Requisitos de interface
39
3.2. DIAGRAMAS DE CASOS DE USO
Caso de uso é uma seqüência de ações executadas por um determinado processo que produz
um resultado para um determinado ator. Com a utilização dos casos de uso, o entendimento das
funções disponíveis para um determinado ator fica simples de se entender. Os cenários produzidos
para cada caso de uso constam no apêndice A. Segue os diagramas de casos de uso com as
funcionalidades do sistema desenvolvido:
3.2.1. Caso de uso do Sistema de Recuperação de Informação
Figura 19. Caso de Uso do Sistema de Recuperação de Informação
40
Tabela 3. Funcionalidades dos casos de uso – Sistema de Recuperação de Informação
Caso de Uso Descrição UC SRI 01-Mecanismo de Consulta do SRI
È a interface entre a consulta do usuário e a estrutura interna do sistema de recuperação de informação.
UC SRI 02-Envia Documentos para o SRI
Envia o documento para ser analisado pelo SRI, e assim ser incorporado no Acervo.
UC SRI 04-Efetua Login no sistema Válida a entrada do usuário no sistema. UC SRI 05-Gerência da tabela de Stopwords
Inclui e exclui os termos irrelevantes e adicionados na tabela de stopwords.
UC SRI 06-Exclui documentos do Acervo
Acessa a tabela de documentos no acervo, excluindo o documento será apagado as referencia ao mesmo.
UC SRI 07-Gerência o dicionário de Termos
Acessa a tabela de dicionários de termo, permite excluir o termo sendo estes adicionados na tabela de stopwords.
UC SRI 09-Aprova documentos enviados pelos Alunos
Lista os documentos enviados pelo aluno para o professor. Somente poderá ser aceito no acervo, se for aprovado pelo professor ou administrador.
3.2.2. Caso de uso do sistema de apoio ao ensino
Figura 20. Caso de Uso do sistema de apoio ao ensino
41
Tabela 4. Funcionalidades dos casos de uso – Apoio ao ensino
Caso de Uso Descrição UC AUL 01 - Cadastra questionário Permite ao professor, cadastrar um formulário de perguntas,
onde o aluno escolhe uma das alternativas. UC AUL 02 - Relatório de Desempenho
Lista todos os alunos da aula que responderam ao questionário, permitindo ao professor avaliar as respostas de cada aluno.
UC AUL 03 - Cadastra Aula Cadastra a aula a ser ministrada pelo professor. UC AUL 04 - Ministra aula Permite ao professor ministrar aula no laboratório de
informática, compartilhando um único documento entre diversas maquinas do laboratório.
UC AUL 05 - Assiste Aula
Permite ao aluno assistir uma aula, e acompanhar a explicação ou ler o documento que o professor está explicando verbalmente.
UC AUL 06 - Responde questionário Permite ao aluno responder ao questionário designado pelo professor para aquela aula.
UC AUL 07 - Cadastra Turma Cadastra dados da Turma (nome, professor responsável, ano).
UC AUL 08 - Cadastra Usuário Cadastra dados do Usuário (nome, email,nível de acesso) UC AUL 09 – Alterar a permissão do professor
A administradora troca à permissão dos dados cadastrais de um professor.
UC AUL 10 – Matricula em Turma Aluno solicita a matricula em uma turma, para que possa fazer parte da mesma.
UC AUL 11 – Lista Turma O professor visualiza os alunos matriculados nas turmas cujo é responsável. Aceitado as solicitações de matricula feita por alunos ou recusando/excluindo os alunos. Tem o objetivo de manter uma turma equivalente com a turma real.
42
3.3. DIAGRAMAS DE ATIVIDADES
Os diagramas de Atividades demonstram as atividades realizadas pelo sistema. Segue abaixo
alguns diagramas para o sistema desenvolvido.
3.3.1. Aula (Sincronismo)
Este diagrama representa a sincronização entre a máquina do professor e alunos no decorrer
da aula. Consta em manter através de uma variável no servidor a frase selecionada pelo professor,
onde a cada interação do professor sobre o texto atualiza esta variável. Simultaneamente, através de
um frame relay a máquina do usuário atualiza o texto constantemente, buscando no servidor a
variável e marcando no texto a frase selecionada.
Figura 21. Diagrama de Atividade – UC ENS 07 - Aula (Sincronismo)
43
3.3.2. Pacote - Sistema de Recuperação de Informação
3.3.2.1. Envio de Documento
Este diagrama representa as ativadas realizadas no momento da inserção de um documento
no acervo, conforme Figura 22.
Figura 22. Diagrama de Atividade – UC SRI 02 - Envio de Documento
1. Documento em Formato ASCII: Busca do disco o documento que irá passar pelas etapas
do SRI, com a finalidade de ser identificado os termos relevantes;
2. Remoção das tags: Está é a primeira etapa onde o SRI interage com o documento,
removendo os caracteres de formatação do documento;
3. Armazena o arquivo em Cache: Armazena no servidor o documento de forma integral,
no formato de TXT sem formatação;
4. Busca Arquivos não analisados em Cache: Seleciona os documentos que deverão ser
incluídos no acervo, sendo primeiro analisado pelo SRI;
5. Remoção Stopword: Remove todas as palavras que estejam contidas no corpo do
documento que estejam na tabela de stopword;
44
6. Seleciona Termos relevantes: Seleciona todas as palavras que sejam relevantes para
identificação do documento, eliminando as que se repetem;
7. Normalização: Etapa onde o SRI interage passando todas as palavras do documento para
o formato minúsculo e sem acentuação;
8. Termos que representam o documento: Obtêm todos as palavras que representarão o
documento.
9. Gerador de Hash CRC32: Nesta etapa a palavra é convertida para um número através do
método Hash CRC32;
10. Contador de palavras: obtém o número de ocorrência da palavra no documento;
11. Marcador de Posição: obtém a posição atual, da palavra em relação ao arquivo cache;
12. Grava todos os termos identificam o documento: etapa final cuja responsabilidade é
armazenar na estrutura de índice os termos relevantes encontrados no documento.
45
3.3.2.2. Consulta SRI
Este diagrama representa as ativadas realizadas no momento em que um usuário do sistema
(professor ou aluno), deseja recuperar algum documento que esteja armazenado no acervo,
conforme Figura 23.
Figura 23. Diagrama de Atividade – UC SRI 01 - Consulta SRI
1. Consulta do Usuário: O usuário passa através de linguagem natural quais são as
palavras que ele deseja localizar nos documentos do acervo;
2. Remoção Stopword: Remove todas as palavras que estejam contidas na consulta do
usuário que estejam na tabela de stopword;
3. Seleciona Termos relevantes: Seleciona todas as palavras que sejam relevantes para
identificação do documento, eliminando as que se repetem;
4. Normalização: Etapa onde o SRI interage passando todas as palavras da consulta
para o formato minúsculo e sem acentuação;
5. Consulta Documentos por Termos: Consulta os termos na estrutura de índice.
46
6. Busca em Cache os documentos: Busca os documentos obtidos através da consulta;
7. Pré-visualização: Visualiza fragmento do documento onde os termos procurados se
encontram;
8. Consulta por campos de identificação de documento: Busca os documentos através
de campos (autor,titulo, palavra-chave);
9. Ranking: Ordena todas as consultas e mostra uma lista de documentos para que o
usuário possa selecionar um documento;
10. Abre Documento: Usuário seleciona um documento que for de seu interesse e o
visualiza.
3.4. MODELO LÓGICO
O modelo lógico representa o conjunto de dados em cada estrutura de tabela, sobre qual são
realizadas as operações através de linguagens que manipulam a álgebra relacional. Todos os dados
do modelo lógico devem representar as características e necessidades do sistema.
Figura 24. Modelo lógico do Sistema de Biblioteca digital
48
3.4.1. Dicionário de dados
Tabela 5. Dicionário de dados
Campo Descrição tipo ALUNO_ACEITO Campo que verifica se um aluno foi aceito na turma BL ADM DESC Descrição dos níveis de segurança do sistema VA20 AUL_ABERTA Campo que define se o aluno já pode ter acesso aos dados
de uma aula BL
AUL_ABERTA Campo que marca se a aula já pode ser vista pela turma BL AUL_DATA Data que a aula será ministrada D AUL_DATA Data da aula da turma D AUL_DESCRIÇÃO Descrição do conteúdo ministrado na aula VA100 AUL_ID Identificador da aula, que permite varia turmas terem a
mesma aula. I
AUL_NOME Nome completo do aluno. VA100 BL_STP Campo que verifica se a palavra já foi vista pelo
administrador do sistema, pra verificar se não é uma stopwords
BL
DC_ID Identificador de registro I DIC HASH Número Hash que representa numericamente o termo,
obtido através de um método de assinatura CRC32. I
DIC PALAVRA A própria palavra que representa o termo. VA100 DIS ID Identificador da disciplina. I DIS NOME Nome da disciplina. VA100 DOC ANO Ano que o documento foi gerado. D DOC ASSUNTO Assunto que representa o documento. VA100 DOC AUTOR Autor original do documento. VA100 DOC DATA Data de inclusão do documento no acervo D DOC END FISICO Endereço físico onde o documento está armazenado. VA100 DOC ID Identificador do documento. I DOC TÍTULO Título do documento. VA100 DOC VERIFICADO Campo que verifica se um documento pode ou não ser
adicionado ao acervo. BL
DOC_COUNT Conta o numero de ocorrência do termo no documento I DOC_PALAVRA_ CHAVE
Palavras_chaves que identificam o documento TXT250
DOC_POS Campo que marca a posição do termo, referente ao arquivo cache
I
DOC_WORD Tipo da palavra do registro I ESC CORRETA Campo que marca com verdadeiro a resposta correta. BL ESC DESCRIÇÃO Descrição de cada escolha. TXT ESC ID Identificador da escolhas das perguntas do questionário. I ESC_OPCAO Define a letra da opção (a,b,c,d,e) A1 JS_ID_FRASE Campo que controla o sincronismo entre maquina do
professor e aluno através do javascript TXT
49
Tabela 5. Dicionário de dados (continuação).
Campo Descrição tipo Nível_Privilegio Identificado dos níveis do sistema (aluno, professor,
administrador, Adm. Sistema). I
PER_DESCRIÇÃO Descrição de cada escolha. TXT PER_ID Identificado das perguntas. I RES_ID Identificado da resposta do aluno I TUR_ANO Ano correspondente da turma I TUR_ID Identificação da turma I TUR_NOME Nome de uma turma ou grupo de alunos que exerceram
alguma atividade. VA25
USU_EMAIL E-mail do usuário VA100 USU_ID Identificador de um usuário I USU_MATRICULA Matricula do usuário I USU_NOME Descrição do nome do usuário VA100 USU_SENHA Senha escolhida pelo usuário VA32
50
3.5. DESENVOLVIMENTO
O desenvolvimento desde projeto tem como finalidade proporcionar um melhor
aproveitamento dos recursos computacionais no contexto da Informática na Educação. Sendo
desenvolvida uma Biblioteca Digital em ambiente web, proporcionando diversos recursos que irá
auxiliar o professor.
O desenvolvimento do projeto está dividido em duas etapas: a primeira é o Sistema de
Recuperação de Informação (SRI) onde se faz o tratamento e recuperação dos documentos a fim de
obter alguma informação/documento; a segunda é o Sistema de Apoio ao Ensino que consiste em
uma ferramenta para o professor utilizar documentos a serem ministrados em laboratório de
informática. Permite também, criar questionários para avaliar o aprendizado do aluno. Este
questionário pode ser efetuado em ambiente on-line, tanto para o professor como para o aluno.
3.5.1. Sistema de Recuperação de informação
O SRI é a etapa responsável pela manutenção, ampliação, preservação, indexação e
recuperação dos documentos que compõem o acervo. Para recuperar um documento e acessar as
informações que constam no mesmo, se faz necessário utilizar um método de recuperação. Este
método utiliza-se de termos relevantes que constam no corpo do documento para assim identificar
os documentos que contenha a informação desejada pelo usuário.
As etapas que compõem o SRI são as seguintes:
• Catalogação dos documentos;
• Remoção de stopwords;
• Normalização morfológica;
• Indexação e estruturas de armazenamento;
• Armazenamento do documento em Cache; e
• Busca e visualização.
A seguir é descrita cada etapa que os documento sofre no interior do SRI e o que afeta no
documento, juntamente como exemplos e a interface.
51
3.5.1.1. Catalogação dos documentos:
Essa é a primeira etapa de um SRI, sua única função é permitir que novos documentos sejam
adicionados no acervo, onde o usuário através do Formulário de Envio de Documento visto na
Figura 25, poderá adicionar arquivos de diversos formatos, ou através do Formulário de Edição
(editor de HTML de código aberto que consta no sourceforge) visto na Figura 26. Todos os
documentos adicionados deverão ser analisados nas etapas posteriores do SRI para que possam ser
recuperados futuramente.
Figura 25. Formulário: Envio de Documentos para o acervo
Figura 26. Formulário de Edição
52
Os Documentos Inseridos pelos alunos deverão ser avaliados pelo professor responsável
pela turma a qual o aluno está matriculado. Este controle se dá para que documentos com conteúdo
impróprio ou não relevante não sejam adicionados ao acervo. A inclusão de documentos pelos
alunos garante uma ampliação constante do acervo, mas poderá conter documentos com conteúdos
duplicados, por não existir um avaliador humano (bibliotecário), que se responsabilize pelo controle
do acervo.
Nesta etapa, não se fez nenhum controle de Direitos Autorais, devido ao sistema ser
utilizado inicialmente apenas pelo CAU. Deverá ser criada uma política junto aos professores de
não violação dos Direitos Autorais, ou seja, não autorizar os professores que copiem documentos de
autores sem autorização do mesmo.
Qualquer documento digital poderá ser adicionado no acervo, mas apenas documentos do
formato HTML, RTF e TXT poderão te seu conteúdo analisado. Todos os outros formatos serão
encontrados pelos campos descritos no Formulário.
A escolha pelos formatos HTML, RTF, TXT se fez devido a serem formatos públicos e de
padrão ASCII, permitindo assim que os scripts PHP possam ler os documentos pelo processo de
streams. Outros formatos como PDF da adobe, DOC da Microsoft Word entre outros, poderão ser
avaliados futuramente pelo conteúdo desde que seja estudado e implementado a retirada de suas
tags de formatação e ser recuperado apenas as palavras dos documentos.
3.5.1.2. Remoção de stopwords
As palavras que apenas conectam frases ou que ocorre em muitos documentos são
consideradas de baixa relevância. Estas palavras não devem fazer parte da estrutura de índice de
palavras que identifiquem o documento.
O formulário visto na Figura 27, lista os termos do dicionário, permitindo ao administrador
do sistema duas atividade: identificar as palavras que mais se repetem, através da contagem de
palavras nos documentos; e identificar palavras de conexão de frases. Ao identificar uma stopwords
o administrador deve excluir esta palavra do dicionário e assim adiciona automaticamente na tabela
de stopwords.
53
Figura 27. Formulário: Lista os termos do dicionário.
O Formulários de manutenção de stopwords (Figura 28), visualiza as palavras que constam
no banco de stopwords, caso seja excluída alguma palavra, a mesma poderá ser novamente
indexada ao conteúdo dos documentos.
Figura 28. Formulário: Manutenção de stopwords.
54
3.5.1.3. Normalização morfológica
As palavras dos documentos são escritas em linguagem natural, ou seja, uma palavra que
representa uma informação poderá variar em sua fonética, grau, gênero e número, sendo que mesmo
com a ocorrência desta variação a palavra ainda continua representando à mesma informação
original. Mas há inúmeras exceções na língua portuguesa que o sistema não consegue tratar como
exemplo as diferenças entre palavras que têm sentidos diferentes apenas mudando sua acentuação
ou a função que exerce na frase.
A análise morfológica consiste na execução de diversas funções executada sobre o
documento que está sendo analisado. A primeira função executada é a retirada da acentuação e tags
de formatação, sendo que para cada formata do arquivo há uma função especifica que tratará a
especificação de tags e acentos. Como por exemplo, o HTML representa a letra “Ó” como
“Ó” e a “Í” como “Ì” já o RTF representa o “Ó” como “\'d3” e a letra “Í” como
“\'cc”.
A função seguinte consta da retirada dos sufixos, gêneros e graus. Isto é feito pela expressão
regular que faz a comparação direta da palavra com as regras de redução de radical (stemming)
desenvolvida, a qual pode ser vista no apêndice E. Um exemplo de regra é a expressão regular
“(ais)[$]”, quando encontrada converterá para “al”, resultando a palavra manuais em manual.
A última função desta etapa é a procura pelo verbete mais similar. A função busca no
dicionário de verbetes as palavras que tiverem acima de 75% de similaridade com a palavra
original ou seja, ¾ dos caracteres devem ser idênticos. A palavra que tiver a maior taxa de
similaridade com a palavra original é armazenada na estrutura de índice. A taxa de similaridade
pode ser alterada. Quanto maior o valor especificado, maior será a precisão em termo de
documentos recuperados e menor a abrangência.
O processo de tratamento morfológico não pode garantir 100% de acerto, devido as
exceções da língua portuguesa, isto faz com que o resultado não corresponda a informação original,
conforme Figura 29. Mas na pré-visualização do documento no formulário de busca o usuário
poderá analisar se o termo contém ou não relevância.
55
Palavra Original Morfológica Verbete
itajaienses itajaiense itajai canais canal cana comumente comum comum cursos curso cursor digitais digital digital escrevendo escrevendo escreve escrever escreve escreve nascimento nascimento nascer país pais pais realizações realizacao realizar
Figura 29. Resultados gerados pela Análise Morfológica.
No fim da etapa de normalização morfológica obtêm-se os termos de consulta, que são as
três formas da palavra (original, morfológica e verbete) que identificam o conteúdo de algum
documento que está armazenado no acervo. Estas três formas são adicionadas na estrutura de índice
desde que não sejam idênticas.
3.5.1.4. Indexação e estruturas de armazenamento
A rápida localização dos documentos no acervo, só é possível utilizando um sistema de
busca que funciona através de índices. Estes índices têm como função selecionar as palavras
relevantes nos documentos e armazená-las na estrutura de índice. O índice é gerado por um método
Hash chamado CRC32 (Cyclic Redundancy Checksum de 32-bit) da palavra, onde apenas é
armazenado um valor numérico que representa a palavra. Todo este processo é chamando processo
de indexação.
Todo o processo de indexação é automático, feito através de procedimentos internos
realizados pelos script PHP. O usuário apenas verifica se o documento poderá ser inserido no
acervo, caso o documento não seja aprovado, o usuário elimina o documento da base do acervo,
conforme visto na Figura 30.
Figura 30. Formulário: Indexação Automática.
56
Para representar uma palavra relevante que identifica o documento se utiliza de vários outros
campos, conforme Figura 31. Sendo que estes campos são: identificação do documento; o hash da
palavra; a posição da palavra no arquivo de cache; o tipo da palavra; e o número de ocorrência da
palavra no documento. O campo “palavra” é apenas ilustrado na Figura 31 para melhorar a
compreensão da mesma, no entanto, este atributo não faz parte do banco de dados.
Palavra DOC_ID DIC_HASH CRC32
DOC_POS DOC_WORD DOC_COUNT
casa 61 2137349405 2 0 (original) 6 malburg 61 -441594284 7 0 (original) 11 itajai 61 473556148 19 0 (original) 5 sc 61 -1854928856 26 0 (original) 2 encantos 61 -1342541227 59 0 (original) 1 encanto 61 -16553476 59 1 (morfológico ) 1 arquitetonicos 61 -759372732 68 0 (original) 1 arquitetonico 61 -1106523789 68 1 (morfológico ) 1
marcaram 61 8382302 87 0 (original) 1 marcar 61 -391072702 87 2 (verbete ) 1 presenca 61 1847198652 98 0 (original) 1 grandiosa 61 2029115831 109 0 (original) 1 grandioso 61 -1622543184 109 2 (verbete ) 1 colonizadora 61 -1427907084 124 0 (original) 1 colonizado 61 -1746053093 124 1 (morfológico ) 1 colonizador 61 -419701975 124 2 (verbete ) 1 imigrante 61 1655852073 214 0 (original) 1 alemao 61 -1011573123 224 0 (original) 3 catarina 61 1704829205 237 0 (original) 1
Figura 31. Representação da estrutura de índice.
O campo “DOC_WORD” identifica o tipo da palavra, se ela é a original do texto, gerada
pelo analisador morfológico ou é o verbete mais próximo da palavra original. Esta estrutura permite
que a consulta do usuário seja mais abrangente.
3.5.1.5. Armazenamento documento em Cache
O documento em cache é equivalente ao documento original, mas não contêm as tags de
formatação do formato original do documento. A função deste arquivo é poder identificar e
visualizar as palavras próximas dos termos de consulta no momento da pré-visualização do
documento. A localização é possível através do campo “DOC_POS” da estrutura de índice (Figura
31), que representa a posição física da palavra no arquivo de cache.
57
Para melhorar o desempenho do sistema na recuperação dos termos utilizou-se um arquivo
cache ao invés de manter todas as palavras na estruturas de índice. A representação anterior
ocupava mais espaço em disco do que o arquivo original tornando as consultas mais lentas. Por
exemplo: um documento com 17.000 palavras foram encontradas 9500 palavras relevantes. Destas,
8.600 foram adicionadas por serem verbetes ou geradas pela análise morfológica. No total foram
adicionadas 18.100 palavras na estrutura de índice além de outros campos de identificação. Com a
utilização do arquivo de cachê, possibilitou manter as 17.000 palavras em um arquivo externo e as
9.500 palavras relevantes foram reduzidas para 5.300 pois muitas eram repetidas. Foram
encontradas 3.300 verbetes ou gerados pela análise morfológicas, sendo armazenadas apenas 8.600
palavras na estrutura de índice.
3.5.1.6. Busca e visualização
Essa etapa consolida o SRI, é onde o usuário através de termos (palavras) de consulta busca
a informação (documento) que atenda sua necessidade. Todas as palavras fornecidas na consulta
passam pelos mesmos processos que os documentos.
Os documentos são visualizados em um ranking, adotando a seguinte ordem: 1) os
documentos que contêm os termos nos campos de identificação (titulo, assunto, autor, palavras-
chave); 2) Os documento que contêm todas as palavras; 3) os que contêm o maior números de
palavras por documento; e 4) os documentos que contenham algumas das palavras.
O formulário visto na Figura 32, permite ao usuário decidir quais os documentos que
possam atender sua necessidade, através de uma pré-visualização do documento em cache.
58
Figura 32. Formulário de Busca.
Na Figura 32, é possível notar uma inconsistência gerada pelo dicionário de verbetes, onde é
apresentado ao usuário a palavra Itaipava, que têm 78% de grau de similaridade com Itajaí. No
entanto, não há nenhuma relevância para o usuário. Devidos a estas inconsistências na abrangência
dos dicionários de verbetes e morfológicos, há necessidade de uma pré-visualização do documento.
Uma característica do sistema de busca é a sua capacidade de sugerir ao usuário uma nova
consulta. Isto é possível através da comparação do termo da consulta com os termos do dicionário
de palavras, retornando assim a palavra mais similar ao termo da consulta, sendo que esta já consta
em algum documento, exemplo visto na Figura 33.
Figura 33. Sistema de sugestão de consulta.
3.5.1.7. Os Dicionários
O SRI utiliza três dicionários, sendo eles:
59
• O Dicionário de Palavras, onde são armazenados os termos já encontrados nos
documentos, se armazena o hash e a palavra; e
• O Dicionário de Stopwords, armazena as palavras que não deverão ser utilizadas para
identificar um documento; e
• O Dicionário de Verbete que permite a identificação dos verbetes das palavras,
garantindo assim uma maior abrangência na consulta.
Todos os dicionários têm respectivos formulários, os quais permitem uma manutenção da
tabela, sendo que esta atividade deverá ser feita por um administrador.
3.5.2. Estrutura do SRI
O Sistema de Recuperação de Informação tem em sua estrutura todas as etapas citadas
anteriormente, a ordem vista na Figura 34 poderá ser alterada, conforme a necessidades que se
pretenda atingir.
60
Figura 34. Estrutura do SRI.
Aprova documentos
Tratador HTML Retira tags/converte
acento em ASCII
Tratador RTF Retira tags/ converte
acento em ASCII
Formatos não reconhecidos
TXT
ARQUIVOS EM CACHE
Análise morfológica
Identificador de verbete
Formato Original do Documento
Documento que não foram analisados
Banco de Dados
Busca Verbete
Grava todos Termos que identifica o
documento
Seleciona Termos Relevantes
Busca Stopword
CRC32 Método Hash
Consulta do Usuário
Termos de Consulta
Resultado da Consulta Ranking e Pré-Visualização dos documentos
Busca Documentos
Consulta Documentos por termos
Retira Acentos
ACERVO (documentos não analisados)
Termos que representam o
documento
Contador de palavras. Marcador de posição.
61
3.5.3. Armazenamento dos documentos
Na Tabela 6, pode ser visto a comparação do espaço ocupado pelo documento original e o
documento gravado em cachê. Observa-se que a redução media do arquivo é de 78%. Essa redução
não ocorre nos arquivos de imagens, pois não há nenhum processo de redução do mesmo.
Tabela 6. Ocupação dos documentos em disco
DOCUMENTO
ORIGINAL
ARQUIVO EM CACHE
Documento
Formato Quantidade de palavras
Tamanho em disco (KB)
Quantidade de palavras
Tamanho em disco (KB)
Redução (%)
O Bairro Fazenda RTF 349 7 237 1 86 O Bairro Sao Joao RTF 690 8 428 3 63 Rua Hercilio Luz RTF 308 7 222 1 86 Rua Felipe Schimdt RTF 175 6 130 1 83 Igreja Imaculada Conceicao
RTF 384 7
252 1 86
Escola digital inclusiva RTF 283 5 202 1 80 Casa da cultura de Itajaí RTF 278 3 131 1 67 TCC Rodrigo Nunes RTF 24.369 738 3.763 178 76 Praia de Cabeçudas, 1952 JPG 0 18 0 18 0 Porto de Itajaí JPG 0 19 0 19 0 Morro da Cruz, 1982 JPG 0 10 0 10 0 MEDIA 75,27 21,91 78
Para se prever a alocação de um espaço em disco para o sistema, se deve considerar o
tamanho médio dos arquivos originais juntamente com os de cachê. Exemplo: Para armazenar 1.000
documentos no acervo, considerando que o tamanho médio dos documentos originais é de 75 KB e
os documentos em cachê é de 22 KB deveram ser alocados em torno de 100 MB para armazenar
estes arquivos.
A previsão do tamanho do disco varia conforme o tipo de arquivos que a serem alocados,
pois arquivos de imagens, sons, vídeo tendem a ocupar maior espaço em disco, assim necessitando
que estes sejam reduzidos em formatos gif, jpg, mp3 antes de serem adicionados ao acervo.
62
3.5.4. Características da Biblioteca Digital
Para uma melhor compreensão das diferenças do sistema de biblioteca digital proposta em
relação às duas analisadas, na seção 2.3.1 Biblioteca Digital de Teses e Dissertações da UFRGS –
BDTD e na seção 2.3.2 Biblioteca Digital da UNICAMP, criou-se a Tabela 7, com as
características de cada sistema.
Tabela 7. Comparação entre as Bibliotecas Digitais
DESEMPENHO Variáveis Características UFRG UNICAMP BD
Armazenamento dos Documentos
Integridade do documento digital; Espaço em disco; Facilidade e rapidez na inserção; Dados de conteúdo e informações adicionais; Indexação dos arquivos; Integração de dados.
SIM SIM SIM
Mecanismo de Busca por campos
Procura os documentos por campos de identificação do documento (autor, titulo, etc).
SIM SIM SIM
Mecanismo de Busca por Termos
Procura documentos que contenham os termos da consulta no seu interior.
NÃO SIM SIM
Controle de Acesso Registro de quem realiza visitas e downloads. NÃO SIM NÃO
Estatísticas Indicadores de downloads. NÃO SIM NÃO
Interação Interagem com outras bibliotecas SIM NÃO NÃO
Envio de Documento Permite usuários enviarem documentos ao acervo SIM NÃO SIM
Direitos Autorais Exige preenchimento de documento de direitos autorais
SIM NÃO NÃO
Termos compostos Permite consulta através de termos compostos SIM SIM NÃO
63
3.5.5. Sistema de Apoio ao Ensino
O sistema de apoio ao Ensino tem o objetivo de proporcionar ao usuário (Professor/Aluno)
uma maior interação com o ambiente e ferramentas digitais. O sistema desenvolvido é um recurso a
mais que estará disponível ao professor para utilizar no processo de ensino. O sistema de apoio ao
ensino está dividido nas seguintes etapas:
• Gerenciar turma;
• Gerenciar aula;
• Questionários e Relatório Desempenho; e
• Ministrar aula e assistir aula;
3.5.6. Gerenciar a Turma
Esta etapa é responsável pelo controle dos alunos que formam uma determinada turma e
pela qual um professor é responsável. Não necessariamente deverá ser um espelho da turma da sala
de aula, mas sim representar um grupo de aluno que pode ser a junção de duas ou mais turmas ou
escolha de alunos de diversas turma para realizar uma atividade extra-classe, ficando a critério de
cada professor formar sua turma e escolher os alunos que compõem a mesma.
O aluno após se cadastrar e realizar o login no sistema poderá solicitar sua inclusão em uma
ou mais turmas, cabendo ao professor responsável por cada turma aceitar este aluno ou apenas o
excluir, sendo este processo feito pelos formulários visto na Figura 35. O sistema também permite
ao professor incluir o aluno diretamente, sem precisar pedir o consentimento do mesmo através do
formulário visto na Figura 36.
64
Figura 35. Formulário de solicitação de inclusão de aluno em uma turma.
Figura 36. Formulário de inclusão de aluno feita pelo professor.
65
3.5.7. Gerenciar aula
Nesta etapa, o professor gerenciará todas as suas aulas juntamente como todas as atividades
da mesma. O formulário visto na Figura 37, faz o controle da aula, permite o acesso aos formulários
de controle de questionário, formulário de edição de conteúdo da aula e ministrar aula para uma
turma.
Figura 37. Formulário controle de aula.
3.5.8. Questionários e Relatório Desempenho
O sistema permite ao professor montar um questionário para cada aula, sendo que os alunos
desta poderão acessar e responder o mesmo. O aluno responde o questionário através do formulário
visto na Figura 38. Conforme pode-se observar na figura, toda a vez que o aluno entra neste
formulário o sistema ordena aleatoriamente as perguntas e as opções, a fim de evitar irregularidades
de alunos ao responder o questionário (cada aluno recebe uma prova diferente da outra).
Figura 38. Formulário de resposta do questionário.
66
O relatório de desempenho é apresentado através do formulário visto na Figura 39, sua
função é permitir ao professor ter um mapa geral das respostas realizadas pelos alunos, e assim
podendo avaliar o desempenho de cada aluno.
Figura 39. Formulário de Relatório.
O sistema permite ao professor verificar as respostas realizadas por cada aluno, conforme a
Figura 40, portanto permitindo observar as dificuldades encontradas pelo aluno ao responder cada
questão.
Figura 40. Formulário de avaliação das respostas por aluno.
67
3.5.9. Aula em Laboratório
O sistema possui uma ferramenta de ajuda aos professores, pois permite a eles ministrarem
aulas no laboratório de informática através do formulário visto na Figura 41. Para que possa ser
ministrada uma aula, há necessidade do professor fazer a edição do conteúdo da aula em um
formato específico usando o editor do sistema. Os alunos devem estar logados no sistema para
acompanhar a aula. Após esta aula, por exemplo, os alunos podem responder um questionário para
avaliar os conhecimentos. Cada aluno pode receber um questionário diferente do outro, para evitar
que eles ditam a resposta de cada pergunta.
Devido ao professor e os alunos estarem no mesmo ambiente físico, o sistema permite ao
professor selecionar e explanar verbalmente um parágrafo ou um fragmento da frase. As palavras
que forem selecionadas pelo professor (figura 41) serão vistas nas máquinas dos alunos com uma
cor diferente, sendo que esta tela será atualizada a cada 2 segundos, verificando se o professor
alterou a seleção de palavras.
Figura 41. Sincronismos da aula.
68
4. AVALIAÇÃO DO SISTEMA
Para realizar o objetivo especifico de validação do sistema, descrito no projeto, foi realizado
um teste junto às turmas da 3ª Série do CAU (duas turmas), onde foram realizadas algumas
perguntas e testes de uso do sistema. Todos os alunos fizeram uso do sistema após um breve
treinamento (57 alunos estavam presentes, incluindo três professores).. Foram simuladas situações
de aula onde o professor ministrou uma aula usando o sincronismo das máquinas. Após esta aula os
alunos responderam a um questionário elaborado pelo professor. Os alunos elaboraram um texto o
qual foi submetido ao professor para que o mesmo fosse validado ou descartado. No final, os alunos
puderam pesquisar palavras-chaves existentes nos documentos que eles mesmos elaboraram. Além
de comentários pessoais dos alunos e professores registrou-se em um questionário as impressões de
cada um sobre o uso e benefícios oferecidos pelo sistema.
O questionário realizado poderá ser visto no apêndice F. Suas perguntas tinham como
objetivo verificar a navegabilidade do sistema, se atendia os todos os objetivos específicos e se o
sistema é atraente para os usuários. Os resultados obtidos podem ser visto na Tabela 8.
Tabela 8. Tabela de Validação.
NAVEGABILIDADE objetivo Atendia Não atendia
Verificavam a navegabilidade do sistema 45 12
OBJETIVOS ESPECÍFICOS Atendia Não atendia
Verificavam se o aluno conseguiu realizar as funções do sistema
49 8
INTERESSE DO ALUNO AO UTILIZAR O SISTEMA Atendia Não atendia
Verificavam se o sistema é de interesse do aluno, se o mesmo iria utilizar essa ferramenta.
57 0
69
Observou-se que quase um quarto dos alunos relataram que a navegabilidade não atendia.
No entanto, constatou-se que muitos alunos não sabiam ler adequadamente e/ou não sabiam
interpretar as funcionalidades do sistema. Por exemplo, alguns alunos não sabiam o que era número
da matrícula, esqueciam sua própria senha e não tinha conhecimento de informática para postar um
arquivo para o professor. Em função disso, a análise da interface foi considerada adequada. Sugere-
se neste caso, que o sistema deve ser usado para alunos com conhecimentos melhores, ou seja, em
séries mais avançadas. Caso o sistema venha a ser usado pelas séries iniciais, então deve-se rever a
interface.
70
5. CONCLUSÃO
O projeto de uma Biblioteca Digital foi desenvolvido com o objetivo de ser uma ferramenta
que auxilie no processo de ensino voltado para as necessidades do colégio de Aplicação da Univali.
Ele exerce a função tradicional de uma biblioteca que é manter um acervo de documentos, mais
também permite que os profissionais da educação tenham nesta ferramenta uma ajuda no processo
de ensino através da informática, utilizando os recursos da ferramenta.
A ferramenta permite ao professor formar turmas de alunos e ministrar aulas em laboratórios
de informática através de documentos digitais, juntamente com um sistema de questionário para que
avaliar a aprendizagem dos alunos. Para ministrar aulas em laboratório desenvolveu-se uma
interação entre a máquina do professor e a dos alunos. Através de uma interface o professor pode
disponibilizar um texto e questões a serem respondidas pelos alunos. O desenvolvimento desta
integração se fez através de técnicas utilizadas em sistemas de bate-papos, onde as máquinas
conversam entre si através de variáveis no servidor, buscando atualizações a cada intervalo de
tempo, a finalidade desta interação permite ao aluno visualizar o texto e o fragmento da frase a qual
o professor gostaria de dar ênfase.
O aluno poderá interagir com a Biblioteca Digital, enviando documentos para o acervo, onde
o professor deverá incentivar a aprendizagem dos alunos através da pesquisa e criação de novos
documentos, assim também garantindo a expansão natural do acervo desta Biblioteca.
Ao permitir o envio de documentos para o acervo pelos professores e alunos se pretende
eliminar a dificuldade que os professores encontravam em editar e manter conteúdos que não
constam em nenhuma bibliografia ou que sejam de difícil acesso. A ferramenta permite o
professor/aluno criar um documento e manter no acervo da biblioteca. Os recursos digitais têm uma
fácil visualização dos documentos sem se preocupar com a limitação de cópia. No entanto, esta
facilidade traz o problema dos Direitos Autorais, pois o sistema não tem como definir se um
documento foi desenvolvido por um professor ou se é uma cópia. Por este motivo o material,
necessita ser analisado pelos professores.
A Biblioteca Digital além de manter o acervo de documento deve garantir uma rápida
localização destes documentos. Isto foi possível através do desenvolvimento de um Sistema de
Recuperação de Informação que utiliza métodos Hash e empregando o algoritmo CRC32 (Cyclic
71
Redundancy Checksum de 32-bit) que converte uma palavra em número e adiciona a mesma em
uma estrutura de índice em um Banco de Dados.
A localização dos documentos se faz através da consulta por palavras que constam no corpo
do documento, ou nos campos de identificação, sendo que a visualização dos documentos
encontrados se faz através de um ranking. Para a melhor avaliação da relevância dos documentos
pelo usuário se faz uma pré-visualização da frase onde se encontra a palavra que o usuário deseja
encontrar.
A estrutura do SRI desenvolvida se comporta eficazmente, pois mantêm o mínimo de
palavras na estrutura de índice, sendo que as palavras com várias ocorrências no documento, são
identificadas e contadas, e o texto é mantido integramente no formato original, e as palavras
identificadas como relevantes são mantidas em um arquivo de cache.
Acredita-se que com a implantação desta Biblioteca Digital ocorrerá um melhor
aproveitamento dos recursos digitais no processo de ensino do CAU, tanto na utilização da
biblioteca para armazenar os documentos quanto na utilização do laboratório para ministrar aulas e
questionários.
Seria importante desenvolver uma interface para alunos de séries iniciais que não são
plenamente alfabetizados e não possuem conhecimento de informática.
O desenvolvimento deste trabalho de conclusão de curso permite que outros trabalhos
possam ser feitos a partir do mesmo. Sugerem-se as seguintes funcionalidades: um mecanismo que
permita a comunicação com outras bibliotecas compartilhando os acervos; interfaces adaptativas
conforme a acessibilidade do usuário; permitir o sistema fornecer aulas em ensino a distancia.
.
REFERÊNCIAS BIBLIOGRÁFICAS
ALTAVISTA. Alta Vista Brasil. Pasadena, Califórnia, 2005. Disponível em: <http://br.altavista.com>. Acessado em: 1 jun. 2005.
ALVES, Maria Bernardete Martins; MENDES, Elise Barbosa. Um modelo de aprendizagem construtivista para busca de informação significativa em bibliotecas virtuais. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS UNIVERSITÁRIAS, 9.. Anais... Florianópolis, 2000. Disponível em: <http://snbu.bvs.br/snbu2000/docs/pt/doc/t143.doc>. Acessado em: 22 mai. 2005.
ANDRADE, Marcos Vinícius Mendonça; BARAÚNA, Mara Lucia Andrade. Bibliotecas virtuais temáticas: o processo de implantação da biblioteca virtual. de arquitetura e urbanismo. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS UNIVERSITÁRIAS. Anais... Recife, 2002. Disponível em: <http://www.ndc.uff.br/textos/BV.pdf>. Acessado em: 22 mai. 2005.
BDTD-UFRGS. Biblioteca digital de teses e dissertações da UFRGS. Disponível em: <http://www.biblioteca.ufrgs.br/bibliotecadigital>. Acessado em: 22 jun. 2005.
BD-UNICAMP. Biblioteca digital da UNICAMP. Disponível em: <http://libdigi.unicamp.br>. Acessado em: 22 jun. 2005.
BORGES NETO, Hermínio. Uma classificação sobre a utilização do computador pela escola. Revista da educação: Educação em debate, Fortaleza, v. 37, n. 01, p. 135-138, 1999. Disponível em: <http://www.multimeios.ufc.br/producao_cientifica/pdf/pre-print/Uma_classificacao.pdf>. Acessado em: 15 mai. 2005.
CERT-RS. Autentificação. Porto Alegre, 2005. Disponível em: <http://www.cert-rs.tche.br/docs_html/autentic.html>. Acessado em: 11 jun. 2005.
CHANG, Shih-Fu et al. Visual information retrieval from large distributed online repositories. Communications of the ACM, New York: ACM Press, v. 40, n.12, p. 63-71, 1997.
CHAVES, Eduardo O C; SETZER, Valdemar W. O uso de computadores em escolas: fundamentos e críticas. São Paulo: Scipione, 1988. Disponível em: <http://www.edutec.net/Textos/Self/Edtech/scipione.htm>. Acessado em: 1 jun. 2005.
CHEN, Hsinchun. The vocabulary problem in collaboration. IEEE Computer: Special issue on cscw, Los Alamitos, v.27, n.5, p. 2-10, 1994. Disponível em: <http://ai.bpa.arizona.edu/papers/cscw94/ cscw94.html>. Acesso em: 22 mai 2000.
CRUZ, Vilma Aparecida Gimenes da. Projeto de implantação e implementação da biblioteca digital da UNOPAR como suporte básico ao ensino a distância. Universidade Norte do Paraná, 2004. Disponível em: <http://www.abed.org.br/congresso2004/por/htm/152-TC-D2.htm>. Acesso em: 22 mai 2005.
CUNHA, Murilo Bastos da. Desafios na construção de uma biblioteca digital. Ciência da Informação, Brasilia, v. 28, n. 3, p. 255-266, 1999. Disponível em: <http://eprints.rclis.org/archive/00003707/01/Murilo_1999.pdf>. Acessado em: 11 jun. 2005.
73
DIAS, Guilherme Ataíde. Periódicos eletrônicos: Considerações relativas à aceitação deste recurso pelos usuários. Ciência da Informação, Brasília, v.31, n.3, p. 18-25. 2002. Disponível em: <http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=471&article=175&mode=pdf >. Acessado em: 11 mai. 2005.
DINIZ, Patrícia. Biblioteca do futuro: Sem paredes e barreiras físicas as bibliotecas ampliam suas fronteiras e democratizam a informação. 2005. Disponível em: <http://www.cg.org.br/gt/gtbv/artigo02.htm>. Acessado em: 23 mai. 2005.
ELISA. eLISa: Sistema integrados de Bibliotecas. 2005. Universidade do Vale de Itajaí. Disponível em: < http://200.169.63.75/scripts/elisa/index.php>. Acessado em: 1 jun. 2005.
FERNEDA, Edberto. Recuperação de informação: Análise sobre a contribuição da ciência da computação para a ciência da informação. 2003. 147 f. Tese (Doutorado em biblioteconomia e documentação) - Universidade de São Paulo, São Paulo, 2003. Disponível em: <http://www.teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/publico/Tese.pdf>. Acessado em: 22 mai. 2005.
FRAKES, William B. Stemming Algorithms. In: FRAKES, William B.; BAEZA-Yates, Ricardo A. Information retrieval: data structures & algorithms. Upper Saddle River, New Jersey: Prentice Hall PTR, 1992.
GALLO, Simone Andrea D'Ávila. Informática na educação infantil: tesouro ou ouro de tolo. In: ANPED, 2002, CAXAMBU. REUNIÃO ANUAL DA ANPED/ EDUCAÇÃO, 25: manifestos, lutas e utopias. Anais... Rio de Janeiro: Associação Nacional de Pós-Graduação e Pesquisa em Educação, 2002. Disponível em:<http://www.anped.org.br/25/excedentes25/simoneandreagallot07.rtf >. Acessado em: 14 mai. 2005.
GONZALEZ, Marco; LIMA, Vera Lúcia Strube de. Recuperação de Informação e expansão automática de consulta com thesaurus: uma avaliação. In: CONFERÊNCIA LATINOAMERICANA DE INFORMÁTICA 27., 2001, Mérida Memórias.. [S.l.]: CLEI, 2001. v. 1. p. 1-10. Disponível em:<http://www.inf.pucrs.br/~gonzalez/docs/expanconsul.pdf>. Acessado em: 11 mai. 2005.
GONZALEZ, Marco; POHLMANN FILHO, Omer; BORGES, Karen Selbach. Informação digital no ensino presencial e no ensino a distância. Porto Alegre, 2001. Disponível em: <http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=525&article=236&mode=pdf >. Acessado em: 22 mai. 2005.
GONZALEZ, Marco; POHLMANN FILHO, Omer; BORGES, Karen Selbach. O papel da informação digital no ensino. In: CONGR. BRAS. DE BIBLIOTEC. E DOCUMENTAÇÃO, 19. E CONGR. LATINO-AMERICANO DE BIBLIOTEC. E DOCUMENTAÇÃO, 3., 2000. Anais... Porto Alegre, 2000. Disponível em:<http://www.ulbra.tche.br/~kborges/bib/cbbd2000.pdf >. Acessado em: 22 mai. 2005.
GOOGLE. Google Brasil. 2005. Disponível em: <http://www.google.com.br>. Acessado em: 1 jun. 2005.
HAYES, R. M. Information Science Education. In: ALA WORLD ENCYCLOPEDIA OF LIBRARY AND INFORMATION SCIENCE. Anais... Chicago, 1986.
74
KEMPINAS, Ana Lucia de Grava. Implantação da biblioteca digital de teses e dissertações da Universidade Estadual Paulista - UNESP. In: SIMPÓSIO INTERNACIONAL DE BIBLIOTECAS DIGITAIS, 2. Anais... Campinas, 2004.
KOWALSKI, Gerald. Information retrieval systems: theory and implementation. Boston: Kluwer Academic Publishers, 1997.
LANCASTER, F. Wilfrid. Information retrieval systems: Characteristics, testing and evaluation. New York: John Wiley e Sons, 1968.
LOH, Stanley. Descoberta de conhecimento em textos. Exame de qualificação: Instituto de Informática, Universidade Federal do Rio Grande do Sul, Porto Alegre, 1999.
MARCHIORI, Patricia Zeni. “Ciberteca” ou biblioteca virtual: uma perspectiva de gerenciamento de recursos de informação. Ciência da Informação, Brasília, v.26, n.2, p. 115-124, maio/ago 1997. Disponível em: http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=750&article=427&mode=pd. cessado em: 22 mai. 2005.
MERCADO, L. L. Novas tecnologias na educação: reflexões sobre a prática. Maceió: EDUFAL, 2002.
MOREIRA, Jander. I. et al. Arquivos invertidos & bitmap. Universidade Federal de São Carlos. Disponível em: < http://www.dc.ufscar.br/~jander/ori203/grupo10c.pdf >. Acesso em: 01 jun. 2005.
MOURA, Mirtes Zoé da Silva. No discurso de professores, a formação para o trabalho com computadores no contexto escolar. 2005. Disponível em: <http://www.anped.org.br/25/excedentes25/mirteszoesilvamourat08.rtf>. Acessado em: 11 mai. 2005.
NEUBERT. Marden Silveira. Recuperação aproximada de informações em textos comprimidos e indexados. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Minas Gerais, 2000.
OLIVEIRA, Zita Prates de; et al. Implementação da biblioteca digital da UFRGS. In: CICLO DE PALESTRAS NOVAS TECNOLOGIAS NA EDUCAÇÃO, 2003. Anais... Porto Alegre. 2003. Disponível em: <http://www.cinted.ufrgs.br/renote/set2003/artigos/implementacaobiblioteca.pdf>. Acessado em: 22 jun. 2005.
RILOFF, Ellen. Little words can make big difference for text classification. In: ANNUAL INTERNATIONAL ACM-SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 1995, Seattle, USA. Proceedings... New York: ACM Press, 1995.
SALTON, Gerard; MACGILL, Michael J. Introduction to modern information retrieval. New York: McGRAW-Hill, 1983.
SANT’ANNA, Marcelo Leone. Os desafios da preservação de documentos públicos digitais. Fundação João Pinheiro, Belo Horizonte. Disponível em: <http://www.ip.pbh.gov.br/revista0302/ip0302santanna.pdf>. Acessado em: 1 jun. 2005.
75
SANTOS, Maria Angela M. Roveredo dos. Extraindo regras de associação a partir de textos. 2002. 71 f. Dissertação (Mestrado em Informática Aplicada) - Universidade Católica do Paraná, Curitiba, 2002. Disponível em: <http://www.ppgia.pucpr.br/ensino/defesas/Maria_Angela%20_2002.PDF>. Acessado em: 11 mai. 2005.
SANTOS, Wanderley Alves dos. Digitalização e manipulação da imagem aplicada na formação do professor de educação artística. Revista latinoamericana de tecnología educativa, Goiania, v.2, n. 1, 1997. Disponível em: <http://www.unex.es/didactica/RELATEC/Relatec_2_1/alves_2_1.pdf>. Acesso em: 14 mai 2005.
SILVEIRA, Maria de Lourdes da. Recuperação vertical de informação: Um estudo de caso na área jurídica. 2003. 134 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Minas Gerais, Minas Gerais, 2003. Disponível em: <http://www.ip.pbh.gov.br/revista0501/ip0501silveira.pdf>. Acessado em: 22 maio 2005.
SOURCEFORGE. ReHash - A console-based hash calculator. Disponível em: <http://rehash.sourceforge.net/rehash.html>. Acessado em: 22 jun. 2005.
SYMANTEC, Corporation. Symantec Security Response. Disponível em: <http://www.symantec.com/region/br/techsupp/avcenter/venc/data/pf/br-glossary.html >. Acesso em: 10 jun. 2005.
VICENTINI, Atílio; BLANCO, Regina Ap.. Análise dos padrões e indicadores de qualidade para disponibilização das teses e dissertações na biblioteca digital da UNICAMP: estudo do caso.[S.l.]. Disponível em: <http://164.41.122.20/publico/setores/000/77/materiais/2004/2/74/Regina%20A%20B%20Vicentini%20-%20An%C3%A1lise%20dos%20padr%C3%B5es.pdf>. Acessado em: 22 jun. 2005.
VIT, Antônio Rodrigo Delepiane de. ESCOP: Estratégia de suporte a solução cooperativa de problemas. 2000. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Rio Grande do Sul. Disponível em: <http://dinf.unicruz.edu.br/~revista/artigo2.pdf>. Acessado em: 1 jun. 2005.
WIVES, Leandro Krug. Tecnologias de descoberta de conhecimento em textos aplicadas à inteligência competitiva. Exame de qualificação: Instituto de Informática, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2002.
WIVES, Leandro Krug. Um estudo sobre técnicas de recuperação de informações com ênfase em informações textuais. Trabalho Individual I: Instituto de Informática, Universidade Federal do Rio Grande do Sul, Porto Alegre, 1997. Disponível em: <http://www.leandro.wives.nom.br/publicacoes/TI.pdf >. Acessado em: 1 jun. 2005.
YAHOO. Yahoo Brasil. 2005. Disponível em: < http://br.yahoo.com/>. Acessado em: 1 jun. 2005.
APÊNDICE A – RELATÓRIO DOS CENÁRIOS
UC AUL 01 - Cadastra Questionário REF 10 - Permitir ao professor criar um questionário para ser preenchido pelo aluno, no decorrer de uma aula. Scenarios 1- Seleciona a aula {Principal}. 2- Digita a questão {Principal}. 3- Digita a opção correta {Principal}. 4- Digite a opção errada {Principal}. 5- Mensagem "Questionário inserido" {Principal}. 1- Lista questões {Alternativo}. 2- Exclui a questão {Alternativo}. 3- Modifica questão {Alternativo}. UC AUL 02 - Relatório de Desempenho REF 12 - O Sistema deve fornecer ao professor um relatório com as respostas dos alunos. Scenarios 1- Seleciona Turmas {Principal}. 2- Visualiza Relatório {Principal}. 3- Conta número de acerto de cada aluno {Principal}. UC AUL 03 - Cadastra aula Scenarios 1- Digita dados {Principal}. 2- Cadastra dados da aula {Principal}. UC AUL 04 - Ministra aula REF 08 - Permitir que o professor utilize um documento para ministrar aula no laboratório de informática. Este documento pode ser visto em cada máquina do laboratório, conforme a máquina do professor, através de um mecanismo de sincronização. Scenarios 1- Seleciona aula {Principal}. 2- Inicia aula {Principal}. 3- Seleciona frase a ser comentada verbalmente {Principal}. 4- Envia para o servidor o identificador da frase selecionada {Principal}. 5- Fecha aula {Principal}.
77
UC AUL 05 - Assiste Aula REF 09 - Permitir ao aluno assistir a uma aula. Scenarios 1- Seleciona aulas conforme a turma {Principal}. 2- Abre documento {Principal}. 3 - Assiste aula {Principal}. 4- Busca no servidor a identificador da frase selecionada {Principal}. 5- Marca no documento a frase selecionada {Principal}. 6- Fecha aula {Principal}. UC AUL 06 - Responde questionário REF 11 - Permitir aos alunos responder ao questionário referente a uma aula. Scenarios 1 - Seleciona a questão {Principal}. 2 - Seleciona Turma que está cadastrado {Principal}. 3 - Seleciona Aula {Principal}. 4- Ordena as perguntas aleatoriamente {Principal}. 5- Ordena as opções aleatoriamente {Principal}. 6- Aluno responde a Questão {Principal}. UC AUL 07 - Cadastra Turma Scenarios 1- Digita dados {Principal}. 2 - Cadastra Dados da Turma { Principal }. UC AUL 09 - Altera a permissão do professor Scenarios 1 – Testa se o usuário tem nível de administrador {Principal}. 1 - Lista Membros {Principal}. 2 - Seleciona o Membro (usuário) {Principal}. 3 - Altera Permissão para Professor {Principal}. UC AUL 10 - Matricula em Turma Scenarios 1 - Lista Turmas cadastradas {Principal}. 2 - Seleciona Turma {Principal}. 3 - Solicita a Matricula {Principal}. 1 – Realiza sua exclusão de uma Turma {Exceção}.
78
UC AUL 11 - Lista Turma Scenarios 1 - Lista Turmas que é responsável {Principal}. 2 - Aceita alunos que solicitaram matricula {Principal}. 1 - Busca alunos {Alternativo}. 1 – Seleciona os alunos que compõem a aula {Alternativo}. 1 – Matricula os alunos selecionados {Alternativo}. 1 - Exclui alunos da turma {Exceção}. UC SRI 01 - Mecanismo de Consulta do SRI REF 01 - Sistema deve conter um método de busca de documentos, que permita consultar através de termos relevantes que constam no corpo do documento. Scenarios 1 - Usuário digita os termos da consulta {Principal}. 2 - Monta a consulta {Principal}. 3 - Sistema envia os termos da consulta para o SRI {Principal}. 4 - Retorna os documentos encontrados pelo SRI {Principal}. 5 - Ordena os documentos {Principal}. 6 - Usuário escolhe o documento de seu interesse {Principal}. 7 - Retorna do acervo o documento escolhido pelo usuário {Principal}. 1 -Sistema sugere uma nova consulta, através da comparação de termos {Alternativo }. 2 - Retorna para a etapa 2 (Principal) {Alternativo }. UC SRI 02 - Envia Documentos para o SRI REF 07 - Permitir ao professor enviar documentos diretamente para o acervo do SRI, permitindo que estes documentos sejam identificados pelo sistema de busca Scenarios 1 - Efetua login {Principal}. 2 - Insere Dados dos Campos de Identificação (Autor, titulo, Disciplina etc...) {Principal}. 3 - Anexa o documento a ser enviado {Principal}. 4 - Envia o arquivo para o servidor {Principal}. 5 - SRI retorna documento enviado {Principal}. 1- Alternativo (Editor documento através do Editor) {Alternativo}.
79
UC SRI 03 - Altera a permissão do professor REF 05 - Cadastrar os professores/usuários que utilizaram o sistema (dados pessoais, login e senha), para inserir documentos ou ministrar aulas. Scenarios 1- Inserir usuário {Principal}. 2- Insere login (matricula) do professor {Principal}. 3- Insere dados do professor {Principal}. 4- Envia dados {Principal}. 1- Modifica dados do professor {Alternativo }. 2- Exclui professor {Alternativo }. UC SRI 04 - Efetua login no sistema Scenarios 1- Usuário insere o seu login (matricula) {Principal }. 2 - Usuário insere a sua senha {Principal }. 3 - Sistema valida senha {Principal}. 1 - Retorna mensagem de "Senha ou login incorreto" {Exceção }. UC SRI 05 - Gerência da tabela de Stopwords REF 02 - Gerenciar (inserir/excluir) termos na tabela de Stopwords, para que o sistema de SRI possa identificar e reconhecer estes termos como irrelevantes nos documentos. Connections Scenarios 1- Lista as palavras a tabela de stopwords {Principal }. 1- Exclui palavra da tabela {Alternativo }. UC SRI 06 - Exclui documentos do Acervo REF 04 - Visualizar os documentos que estejam contidos no acervo. Excluir os documentos cujo conteúdo não seja relevante ou impróprio. Scenarios 1 - Busca documentos por professor e as turmas cujo é o responsável {Principal }. 2 - Seleciona o documento {Principal }. 3- Exclui o documento do acervo {Principal }. 1 - Filtra consulta por campo (data, disciplina) {Alternativo}.
80
UC SRI 07 - Gerência o Dicionário de Termos REF 03 - Gerenciar os termos do Dicionário de Termos. Observar se os mesmos são realmente relevantes. Caso este termo não seja relevante poderá ser adicionada na tabela de Stopwords. Scenarios 1- Lista termos relevantes {Principal}. 2- Marcas os termos não relevante {Principal}. 3- Seleciona opção de adicionar na tabela de stopwords {Principal}. 4- Adiciona o termo na tabela de stopwords {Principal}. 5- Apaga os termos selecionados encontrados no dicionário de termos {Principal}. 1- Selecionado a opção e excluir {Alternativo }. 2- Apaga os termos selecionados encontrados no dicionário de termos {Alternativo }. UC SRI 08 - Envia documentos para serem aprovados pelo Professor REF 06 - Permitir ao professore receber documentos dos alunos, se após avaliação do professor o documento é considerado relevante, poderá ser inserido no acervo do SRI. Scenarios 1- Informa dados do autor {Principal}. 2- Escolhe o professor que irá avaliar o documento {Principal}. 3 - Anexa o documento a ser enviado {Principal}. 4- Insere os dados do documento {Principal}. UC SRI 09 - Aprova documentos enviados pelos Alunos REF 06 - Permitir ao professor receber documentos dos alunos, se após avaliação do professor o mesmo for considerado relevante, poderá ser inserido no acervo do SRI. Scenarios 1 - Busca Documentos da Turma cujo professor é o responsável {Principal}. 1- Seleciona um documento {Exceção}. 2- Lista os documentos não avaliados pelo professor {Principal}. 3- Avalia os documentos {Principal}. 4- Envia documento para o SRI (UC SRI 02) {Principal}. 2 - Exclui documento do acervo {Exceção}.
81
APÊNDICE B – ANALISADOR LÉXICO DE SELEÇÃO DOS ENDEREÇOS
Será aplicado o analisador léxico de seleção dos endereços de páginas de internet, cujo
exemplo é página do CTTMAR, visualizado na Figura 42.
Figura 42. Página do CTTMAR
Na Figura 43, mostra-se a expressões regulares juntamente com o escopo do código,
desenvolvido em linguagem Delphi.
with PerlRegEx1 do begin RegEx :='href=\"(.)*\"'; //Expressão regular que verifica o padrão de existência de link Subject := pagina.text; while MatchAgain do resultado.lines.add (MatchedExpression); //Encontrar a expressão e adiciona em um arquivo RegEx :='(href=)|(\")'; // Expressão regular de limpeza do link Subject := resultado.text; while ReplaceAll do resultado.text:= Subject; end;
Figura 43. Código fonte do analisador léxico.
82
Como resultado do Código apresentado na Figura 43, obteve-se as informações exibidas na
Figura 44.
http://www.cttmar.univali.br/ http://www.univali.br/ http://www.univali.br/ http://www.cttmar.univali.br/ http://www.cttmar.univali.br/procurar.php http://www.cttmar.univali.br/cttmar/cttmar_det.php http://www.cttmar.univali.br/pessoas.php http://www.cttmar.univali.br/pesquisas.php http://www.cttmar.univali.br/cursos.php http://www.cttmar.univali.br/noticias.php http://www.cttmar.univali.br/infra.php http://www.cttmar.univali.br/servicos/servicos.php http://www.cttmar.univali.br/cttmar/cttmar_det.php http://www.cttmar.univali.br/english/english.php http://www.cttmar.univali.br/cttmar/direcao_det.php http://www.cttmar.univali.br/cttmar/organograma.php http://www.cttmar.univali.br/infra.php http://www.cttmar.univali.br/cttmar/premios_det.php http://www.cttmar.univali.br/cttmar/parcerias.php http://www.cttmar.univali.br/cttmar/publicacoes_lst.php http://www.univali.br/webmail http://sislab.cttmar.univali.br/ http://www.cttmar.univali.br/~tempo http://www.cttmar.univali.br/~eventos/ http://www.cttmar.univali.br/~bibcttmar/ http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=1 http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=2 http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=3 http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=4 http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=5 http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=6 http://www.cttmar.univali.br/cursos/pos_princ_det.php?id_curso=7 http://www.cttmar.univali.br/cursos/pos_princ_det.php?id_curso=24 http://www.cttmar.univali.br/formacao.php http://www.cttmar.univali.br/news/newscttmar.php?id_new=434&tipo=centro http://www.cttmar.univali.br/news/newscttmar.php?id_new=433&tipo=centro http://www.cttmar.univali.br/news/newscttmar.php?id_new=432&tipo=centro http://www.cttmar.univali.br/endereco.php http://www.cttmar.univali.br/contato.php http://www.cttmar.univali.br/restrito/logon.php http://www.cttmar.univali.br/mapasite.php http://www.cttmar.univali.br/copyright.php
Figura 44. Resultado do Analisador léxico.
APÊNDICE C – IDENTIFICAÇÃO DE TERMOS
Será aplicado o analisador léxico de seleção dos endereços de páginas de internet, cujo
exemplo é página do CTTMAR, visualizado Figura 45.
Figura 45. Página do CTTMAR – Para identificação de Termos
84
Na Figura 46, mostra-se a expressões regulares juntamente com o escopo do código,
desenvolvido em linguagem Delphi.
with PerlRegEx1 do begin //Expressão regular que verifica a existência de termos RegEx :='\>([^>^<]){4,256}\<'; Subject := memo1.text; while MatchAgain do pagina.lines.add(trim(MatchedExpression)); //Eliminação de múltiplos espaços e caracteres inválidos. RegEx :='(\>[^a-z^A-Z^0-9]{2,256}\<)|([ \t]{2,256})'; Subject := result.text; Replacement:=' '; while ReplaceAll do result.text:= Subject; //identificação de múltiplas quebra de linha. RegEx :='([\n\r]+)'; Subject := result.text; Replacement:='|'; while ReplaceAll do result.text:= Subject; //Eliminação de múltiplas quebra de linha. RegEx :='([\| ]{2,256})'; Subject := result.text; Replacement:='|'; while ReplaceAll do result.text:= Subject; //Formatação das quebra de Linha. RegEx :='([^a-z^A-Z^0-9][\|][^a-z^A-Z^0-9])'; Subject := result.text; Replacement:=#13#10; while ReplaceAll do result.text:= Subject; //Limpar o documentos RegEx :='([\|\>\<])'; Subject := result.text; Replacement:=' '; while ReplaceAll do result.text:= Subject; end;
Figura 46. Código fonte do identificador de termos.
Como resultado do Código apresentado na Figura 46, obteve-se as informações exibidas na
Figura 47. Nesta etapa, observa-se um grande número de termos inúteis, sendo estes eliminados
pela comparação com a tabela de stopwords.
CTTMar - ::: Centro de Ciências Tecnológicas da Terra e do Mar ::: function topo() { if (parent.frames[0]!=null) top.location.href = document.location; return (true) Procurar O CTTMar Pessoas Pesquisas Cursos Notícias Infra-Estrutura Serviços O CTTMar O CTTMar :: Sobre o CTTMar :: About CTTMar (english) ::
85
Direção :: Organograma :: Instalações :: Prêmios :: Parcerias :: Publicações Serviços :: Webmail :: Controle dos Laboratórios :: Previsão do Tempo :: Chamadas de Trabalhos :: Biblioteca Digital Cursos Graduação :: Biotecnologia :: Ciência da Computação :: Engenharia Ambiental :: Engenharia Civil :: Geografia :: Oceanografia Pós-graduação :: Mestrado em Ciência e Tecnologia Ambiental :: Especialização em Gestão Ambiental Formação Continuada :: Página da Seção Pedagógica do CTTMar Eventos Não existem dados para serem apresentados Notícias 11/02/2005 Curso incentiva conservação de peixes 25/01/2005 Pesquisadores recebem prêmio internacional 21/01/2005 Guia pioneiro orienta mergulhadores Endereço Fale Conosco Área Restrita Mapa do Site Ajuda Copyright © 2004 - Todos os direitos reservados.
Figura 47. Resultado com termos identificados.
86
APÊNDICE D – TABELA DE TERMOS INVÁLIDOS - STOPWORDS
Na Tabela 9, são listados alguns exemplos de termos a serem adicionadas na tabela de
stopwords.
Tabela 9. Termos irrelevantes
a acerca agora algumas alguns ali ambos amplo antes ao apontar aquela aquelas aquele aqueles aqui aquilo as atrás bem bom cada caminho cima com como comprido conhecido corrente da das de debaixo dele dentro desde desligado desse deste deve devem deverá direita diz dizer do dois dos e é ela ele eles em enquanto então entre es esse está estado estão estar estará este este estes esteve estive estivemos estiveram eu fará faz fazer fazia fez foi fora horas iniciar inicio ir irá isto isto ligado maioria maiorias mais mas mesmo meu muito muitos na não nas nesse nesta neste no nome nós nosso novo numa o obter onde os ou outro para parte pegar pelo pessoas pode poderá podia por porque povo primeiro qual qualquer quando quase que quem quieto saber são se sem ser seu somente su sua tal também tem têm tempo tenha tenho tentar tentaram tente tentei teu teve tipo tive todos trabalhar trabalho tu último um uma umas uns usa usar valor veja ver verdade verdadeiro via você
87
APÊNDICE E – FUNÇÃO MORFOLÓGICA
A Figura 48 mostra a função morfológica desenvolvida para este projeto com a finalidade de
redução morfológica. Esta função é utilizada no momento da análise do documento, e também nas
palavras da consulta realizada pelos usuários.
function morfologica($word) { //Substantivos terminados em "-r" ou "-z" $temp=ereg_replace('(res)$','r',$word); $temp=ereg_replace('(zes)$','z',$temp); //Substantivos terminados em "-al", "-el", "-ol", "ul". $temp=ereg_replace('(ais)$','al',$temp); $temp=ereg_replace('(eis)$','el',$temp); $temp=ereg_replace('(ois)$','ol',$temp); $temp=ereg_replace('(uis)$','ul',$temp); //Substantivos terminados em "-il". $temp=ereg_replace('(sseis)$','il',$temp); // Subs tantivos terminados em "-m". $temp=ereg_replace('(ns)$','m',$temp); // Substantivos terminados em "-ao". $temp=ereg_replace('(oes)$','ao',$temp); $temp=ereg_replace('(aes)$','ao ',$temp); // Substantivos terminados as "-a". $temp=ereg_replace('(as)$','a',$temp); $temp=ereg_replace('(es)$','e',$temp); $temp=ereg_replace('(is)$','i',$temp); $temp=ereg_replace('(os)$','o',$temp); $temp=ereg_replace('(us)$','u',$temp); // Substantivos terminados em "er". $temp=ereg_replace('(ar)$','a',$temp); $temp=ereg_replace('(er)$','e',$temp); $temp=ereg_replace('(ir)$','i',$temp); $temp=ereg_replace('(va)$','',$temp); $temp=ereg_replace('(ia)$','',$temp); $temp=ereg_replace('(ra)$','',$temp); $temp=ereg_replace('(ria)$','',$temp); $temp=ereg_replace('(sse)$','',$temp); $temp=ereg_replace('(ente)$','',$temp); //prefixo $temp=ereg_replace('(^ante)$','',$temp); $temp=ereg_replace('(^anti)$','',$temp); $temp=ereg_replace('(^pre-)$','',$temp); $temp=ereg_replace('(^in)$','',$temp); return $temp; };
Figura 48. Função morfológica
88
APÊNDICE F – QUESTIONÁRIO DE VALIDAÇÃO
BIBLIOTECA DIGITAL APOIANDO O ENSINO INSTRUMENTO DE AVALIAÇÃO
Nome do Avaliador:_________________________________________________________
Ocupação: Aluno Professor
Este documento será utilizado para atender um dos objetivos específicos do Trabalho de
Conclusão do Curso de Ciências da Computação, realizado pelo acadêmico Rodrigo I.
Nunes e orientado pelo professor Gilberto Grandi.
Questões: Assinale com “X” na opção que desejar ou preencha comentário, na linha
posterior a pergunta.
1 – Como você classificaria a Biblioteca Digital quanto à dificuldade na navegação e utilização dos seus recursos?
Ruim Normal Boa
Comentários: 2 – O que você achou da apresentação visual da Biblioteca? Ruim Normal Boa
Comentários 3 – Os resultados obtidos no sistema de pesquisa se apresenta de forma clara?
Sim Não
Comentários: 4 – O questionário se apresenta de forma clara? Sim Não
Comentários: 5 – Ao assistir uma aula está fácil a sua visualização do texto e da frase selecionada pelo professor
Difícil Médio Fácil
Comentários: 6 – Você gostaria que seus melhores trabalhos fossem utilizados por outros alunos
Sim Não
Comentários: 7 – Você tem alguma sugestão para ser adicionado no sistema de Biblioteca
Sim Não
Comentários:
Figura 49. Questionário de validação
89
ANEXO I – ARTIGO
BIBLIOTECA DIGITAL APOIANDO O ENSINO
Rodrigo Irineu Nunes, Gilberto Grandi, Dr. [email protected], [email protected]
Ciência da computação – CTTMAR – Univali
Rua Uruguai, 458 – Centro – Itajaí - SC
RESUMO A informação digital associada ao ensino apresenta-se como alternativa aos modelos de ensino tradicionais, possibilitando um processo educacional independente de tempo ou lugar. No aspecto colaborativo, ainda promove através da formação de grupos de estudo, a troca de conhecimentos e a valorização das interações entre alunos, e entre alunos e professores. Entretanto, para que o modelo educacional seja completo é necessário um mecanismo que disponibilize os materiais didáticos e complementares. Nesse sentido, o presente projeto refere-se à criação e operação de uma biblioteca digital, desenvolvida para apoiar o ensino no Colégio de Aplicação da Univali. Têm como objetivos preservar a memória institucional e disponibilizar material didático gerado pelos professores e alunos, proporcionando maior visibilidade e acesso, através da Internet. Aborda um sistema de recuperação de informação onde permite um sistema de busca por campos (autor, título entre outros), e através de termos relevantes presentes nos textos. Palavras-chave: Bibliotecas Digitais. Recuperação da Informação. Informática na Educação.
ABSTRACT The digital information associated to the teaching, it is presented as alternative to the models of traditional teaching, turning possible an independent educational process of time and place. In the collaborative aspect, it is still promote, through the formation of study group, the change of knowledge and the valorization of interactions among students, and between students and teachers. However, it is necessary a mechanism that turns available the didactic materials and complements to the educational model is complete. In this way, the present project is referred to the creation and operation of a digital library, developed to support the teaching at Colégio de Aplicação da UNIVALI. The main objectives are to preserve the institutional memory and to turn available didactics material generated by teachers and students, providing a greater visibility and accessibility, through Internet. It approaches a recuperation system of information where allows a search system by fields (author, title among others), and through the present relevant terms in the texts. Keywords: Digital Library. Recuperation of Information. informatics in Education.
1. Introdução
Desde a criação da escrita até as tecnologias da informação dos dias de hoje, existe a
necessidade de armazenar e recuperar as informações já geradas. Pois a cada dia a base de
informação aumenta, sendo neste processo criadas novas informações e descartando outras. Esta
evolução constante da informação dificulta o processo de pesquisa, gera um dinamismo nas formas
90
de adquirir essas informações. Se tornado um desafio para os membros da sociedade conseguirem
avaliar e assimilar todas estas informações.
Para acompanhar essas evoluções as instituições de ensino também tiveram que evoluir
quanto ao seu processo de ensino. Para estarem adaptadas aos novos conhecimentos precisaram
criar novos métodos de ensino, tais como, atividades extra-classe, pesquisas, trabalhos de campo,
levantamento histórico e geográfico regional. Muitos destes conteúdos não estão documentados ou
presentes em bibliografias. Estas atividades realizadas por alunos e professores geram materiais
como, por exemplo: textos, tabelas, imagens, apresentações. A manutenção e reutilização dessas
matérias para uso futuro com outras turmas é uma tarefa difícil para os professores. Para isso, se
propôs a construção de um sistema com o objetivo de armazenar os documentos para que os
mesmos possam ser reutilizados futuramente.
Propõe-se solucionar o problema de armazenamento de conteúdos didáticos com o
desenvolvimento de uma Biblioteca Digital que é o resultado de um trabalho que busca identificar a
natureza do problema e resolvê-lo utilizando um Sistema de Recuperação de Informações (SRI).
2. Justificativa Neste artigo apresenta-se o desenvolvimento do projeto de uma Biblioteca Digital, que tem
como objetivo ser uma ferramenta de auxílio no processo de ensino. Sua principal característica é
de minimizar o trabalho ou re-trabalho de professores e alunos, por permitir a ambos armazenarem
e recuperem materiais de didáticos desenvolvidos na instituição. Juntamente com um sistema para
dar apoio ao professor, para que o mesmo possa ministrar aulas e verificar o aprendizado através de
questionários a serem respondidos pelos alunos.
3. Metodologia Para a fundamentação teórica deste trabalho foram realizadas pesquisas em livros, artigos,
publicações e entrevistas com profissionais que trabalham no ensino fundamental da UNIVALI.
Na realização do projeto efetuou-se um estudo através da Internet em sites de busca como o
Google, Yahoo, sites especializados em desenvolvimento como sourgeforge.net, php.net,
phpbrasil.com entre outros para pesquisar e avaliar soluções similares. A pesquisa se iniciou com a
busca de documentos que definam os métodos de recuperação de informação, bibliotecas digitais e
informática na educação. Para o desenvolvimento do sistema fez-se uso de ferramenta de Análise
Orientada a Objetos seguindo a notação UML e ferramenta de análise dos dados para fazer a
91
modelagem do banco de dados e para o dicionário de dados usou-se a ferramenta Power Designer.
No processo de implementação utilizou-se a linguagem para Web PHP versão 4.3 com acesso a
banco de dados MYSQL 3.5.
4. Sistemas de Recuperação de Informação “Os Sistemas de Recuperação de Informação (SRI) foram criados para facilitar o acesso à
informação em uma coleção de documentos digitais. Esses sistemas permitem organizar,
padronizar, indexar e recuperar informações sobre os documentos de uma coleção” (SILVEIRA,
2003, p. 133).
Em 1950 o termo “Recuperação de Informação” (RI), foi utilizado pela primeira vez em um
artigo cientifico, por Calvin Moores, sendo uma atividade que envolve os aspectos de descrição de
informação (indexação, padronização) e sua especificação para busca, além de qualquer técnica,
sistema ou máquina empregada para realizar ou auxiliar essas tarefas (WIVES, 2002, p. 23).
Atualmente, o SRI consiste na busca de documentos relevantes a uma dada consulta que
expressa a necessidade de informação do usuário. Esses documentos podem não apenas ser
informações textualizadas, mas serem sons, imagens, vídeos e outros tipos de dados (GONZALEZ;
LIMA, 2001). Uma representação simplificada do processo de recuperação de informação é
apresentada na Figura 1.
Figura 50. Representação do processo de recuperação de informação
Fonte: Adaptado de Ferneda (2003, p. 15).
Usuário
Função de Busca
Documentos
Representação de termos
Expressão de Busca
92
Um sistema de recuperação de informações só pode retornar informações relevantes para o
usuário. Isso porque informação relevante é aquela informação que o usuário necessita em
determinado momento para a realização de alguma tarefa, ou seja, ela deve estar no contexto que o
usuário deseja e no momento certo (WIVES, 2002, p. 25). No caso, do usuário solicitar informação
sobre “7 de setembro”, buscando informação sobre a data histórica. Tendo nenhuma relevância
neste momento o termo “Rua 7 de setembro”, pois assume que o usuário já conhece esta informação
e não a necessita.
Para que o SRI possa recuperar um documento e acessar as informações que constam no
mesmo, se faz necessário utilizar um método de recuperação. Este método utiliza-se de termos
relevantes que constam no corpo do documento para assim identificar os documentos que contenha
a informação desejada pelo usuário.
As etapas desenvolvidas neste projeto que compõem o SRI são: catalogação dos
documentos; Remoção de stopwords; Normalização morfológica; Indexação e estruturas de
armazenamento; Armazenamento do documento em Cache; e Busca e visualização.
1. Catalogação dos documentos
Essa é a primeira etapa de um SRI, sua única função é permitir que novos documentos sejam
adicionados no acervo através de formulário. Todos os documentos adicionados deveram ser
analisados nas etapas posteriores do SRI para que possam ser recuperados futuramente.
O sistema permite adicionar documentos do formato HTML, RTF e TXT, que podem ser
analisados através das palavras que constam no corpo do documento, mas o sistema poderá também
recuperar arquivos de imagens, sons, apresentações entre outros, através dos campos de
identificação do documento (Titulo, assunto, palavras-chaves, disciplinas).
Nesta etapa, não se fez nenhum controle de Direitos Autorais, devido ao sistema ser
utilizado inicialmente apenas pelo CAU.
2. Remoção de stopwords
As stopwords têm como finalidade auxiliar a estruturação da linguagem (tais como
conjunções e preposições) (WIVES, 2002, p. 52). Uma vez que elas são muito comuns, sua
presença não contribui significativamente para a determinação do conteúdo do documento
(SANTOS, 2002, p. 10). Estas palavras não devem fazer parte da estrutura de índice de palavras que
identifiquem o documento.
93
Neste sistema, utilizar-se-á uma tabela de stopwords, onde seus elementos são adicionados
manualmente. O algoritmo de remoção de stopword lê todo o texto à procura das palavras contidas
nesta tabela, removendo-as ao encontrá-las.
3. Normalização morfológica
As palavras dos documentos são escritas em linguagem natural, ou seja, uma palavra que
representa uma informação poderá variar em sua fonética, grau, gênero e número, sendo que mesmo
com a ocorrência desta variação a palavra ainda continua representando à mesma informação
original. Mas há inúmeras exceções na língua portuguesa que o sistema não consegue tratar como
exemplo as diferenças entre palavras que têm sentidos diferentes apenas mudando sua acentuação
ou a função que exerce na frase.
Na análise morfológica consiste na execução de diversas funções executada sobre o
documento que está sendo analisado. A primeira função executada é a retirada da acentuação e tags
de formatação, sendo que para cada formata do arquivo há uma função especifica que tratará a
especificação de tags e acentos. Como por exemplo, o HTML representa a letra “Ó” como
“Ó” e a “Í” como “Ì” já o RTF representa o “Ó” como “\'d3” e a letra “Í” como
“\'cc”.
A função seguinte consta da retirada dos sufixos, gêneros e graus. Isto é feito pela expressão
regular que faz a comparação direta da palavra com as regras de redução de radical (stemming)
desenvolvida que pode ser vista no apêndice E. Um exemplo de regra é a expressão regular
“(ais)[$]”, quando encontrada converterá para “al”, resultando a palavra manuais em manual.
A última função desta etapa é a procura pelo verbete mais similar. A função busca no
dicionário de verbetes a palavra que tiver o maior taxa de similaridade com a palavra original é
armazenada está na estrutura de índice.
No fim da etapa de normalização morfológica obtêm-se os termos de consulta, que são as
três formas da palavra (original, morfológica e verbete) que identificam o conteúdo de algum
documento que está armazenado no acervo. Estas três formas são adicionadas na estrutura de índice
desde que não sejam idênticas.
94
4. Indexação e estruturas de armazenamento
A próxima etapa é a construção do índice, que realizada através do processo de indexação.
Esta, consiste na criação de índice a qual permite que o sistema encontre rapidamente um
documento a partir de um conjunto de termos descritos pelo usuário. O índice pode ser
compreendido como uma espécie de filtro que é capaz de selecionar os documentos relevantes e
manter de fora os documentos irrelevantes.
O processo de indexação tem como função selecionar as palavras relevantes nos documentos
e armazenando na estrutura de índice. O índice é gerado por um método Hash chamado CRC32
(Cyclic Redundancy Checksum de 32-bit) da palavra, onde apenas é armazenado um valor numérico
que representa a palavra.
5. Armazenamento do documento em Cache
O documento em cache é equivalente ao documento original, mas não contêm as tags de
formatação do formato original do documento. A função deste arquivo é poder identificar e
visualizar as palavras próximas dos termos de consulta no momento da pré-visualização do
documento.
A escolha de utilizar um arquivo de cache foi devido à representação na estrutura de índice
de todas as palavras relevantes do documento, se tornado muito custosa, além desta representação
ocupar mais espaço em disco do que o arquivo original tornou as consultas mais lentas. Exemplo:
em um documento com 17000 palavras foram encontradas 9500 palavras relevantes, destas 8600
palavras foram adicionadas por serem verbetes ou geradas pela análise morfológica. No total foram
adicionadas 18100 palavras na estrutura de índice mais os outros campos de identificação. Já
utilizando o arquivo de cache mantêm as 17000 palavras em um arquivo externo, as 9500 palavras
relevantes foram reduzidas para 5300 palavras pois muitas eram repetidas, e foram encontradas
3300 verbetes ou gerados pela analise morfológicas, sendo armazenadas apenas 8600 palavras na
estrutura de índice.
6. Busca e visualização
A necessidade de informação do usuário é representada através de sua expressão de busca,
que pode ser especificada em linguagem natural e deve resultar na recuperação dos documentos que
95
possibilite a verificação de cada um deles a fim de selecionar os que são úteis (FERNEDA, 2003, p.
18).
Essa etapa consolida o SRI, é onde o usuário através de termos (palavras) de consulta busca
a informação (documento) que atenda sua necessidade. Todas as palavras fornecidas na consulta
passam pelos mesmos processos que os documentos.
Os documentos são visualizados em um ranking, adotando a seguinte ordem: 1) os
documentos que contêm os termos nos campos de identificação (titulo, assunto, autor, palavras-
chave); 2) Os documento que contêm todas as palavras; 3) os que contêm o maior números de
palavras por documento; e 4) os documentos que contenham algumas das palavras. No momento de
montagem do ranking é realizada uma pré-visualização do documento, assim permitindo ao usuário
identificação a relevância de cada documento.
5. Biblioteca Digital Este projeto trata da criação de uma biblioteca digital, que utiliza um sistema de SRI, para
que possa ordenar e localizar no acervo os documentos necessários para cada usuário. Mas na
criação desta biblioteca é necessária a construção de uma cultura que vai desde a definição de uma
política de trabalho, para digitalização de documentos até o modelo completo de uma biblioteca
digital (CUNHA, 1999, p. 258).
Na utilização de bibliotecas digitais permite a expansão dos horizontes do ensino e da
pesquisa, tornando praticamente ilimitada a liberdade dos educadores para indicar material
bibliográfico, sem a preocupação com conceitos como lugar e quantidade disponível (GONZALEZ;
POHLMANN FILHO; BORGES, 2000).
A questão da tecnologia aplicada ao ensino é uma discussão que coloca as pessoas ligadas à
educação em um dilema, ora existe tecnologia e os professores não sabem lidar com ela, ora os
professores sabem lidar, mas falta o suporte necessário para que se desenvolva, a contento, o seu
trabalho com o auxílio da tecnologia (SANTOS, 1997, p. 75).
As bibliotecas digitais, além das atividades oferecidas pelas bibliotecas tradicionais, têm
características próprias, conseqüências da opção digital, que possibilitam a otimização do uso das
tecnologias da informação agregando valores aos serviços oferecidos (CRUZ, 2004).
96
6. Planejamento de uma Biblioteca Digital Com base nas definições apresentadas por Marchiori (1997) e Cruz (2004), são identificadas
sete etapas que devem ser consideradas no planejamento da biblioteca digital:
1. Aquisição dos documentos
O processo de criação e captura dos documentos digitais envolve os processos de análise e
definição dos objetos a serem disponibilizados na biblioteca digital. Compreende a disponibilização
de um documento no formato digital e a transformação de um documento de formato não-digital
para o formato digital, utilizando ferramentas de edição de textos.
Segundo Dias (2002, p. 21), há disponível no mercado uma variedade de ferramentas
voltadas para a elaboração de textos, desde processadores de textos bastante populares como o
Microsoft Word até ferramentas mais simples para a elaboração de páginas HTML, tais como o
Composer, que faz parte do navegador Netscape.
No final desta etapa, têm-se a na transformação de documentos já capturados no formato
digital, para um formato padrão único, assim podendo ser indexado na base de dados.
2. Preservação e manutenção dos documentos
O armazenamento dos objetos digitais envolve sempre grandes e crescentes quantidades de
informação que devem ser preservadas indefinidamente. Para garantir a integridade dos documentos
e seus respectivos conteúdos é necessário: (i) definir a forma de armazenamento; (iii) gerenciar a
distribuição dos objetos digitais nos servidores; (iii) providenciar os backup, e (iv) garantir a
capacidade de incorporar novas tecnologias.
3. Recuperação da informação
Para a indexação dos documentos digitais é necessário utilizar-se uma padronização dos
termos ao inserir na base de dados que permita a recuperação e o acessar aos documentos. Para isso
deve-se: (i) implementar ferramentas que possibilitem além da busca de campos tradicionais como
autor, título, assunto, palavras-chaves, também a pesquisa no conteúdo dos documentos digitais, tais
como no texto completo e no conteúdo das imagens, entre outros; (ii) implementar ferramenta de
busca que possibilite a utilização da lógica booleana, linguagem natural , e (iii) técnicas de
inteligência artificial
4. Distribuição dos documentos
A distribuição dos documentos digitais necessita de uma infra-estrutura física de
comunicação que possibilite o acesso a todo conteúdo armazenado na base de dados, em tempo
integral.
97
5. Compartilhamento dos documentos
Prover mecanismos que possibilitam interligar as coleções de documentos entre bibliotecas,
de diversas instituições, através de documentos e comunicação padronizados.
6. Uso da biblioteca digital
Deve ser oferecido um treinamento para a utilização da biblioteca digital, que visa otimizar a
busca dos documentos. O treinamento deverá ser oferecido primeiramente para os tutores de sala e
em seguida para os alunos do curso. Mas deverá ter uma ajuda on-line para que o usuário possa por
si próprio apreender a utilizar a ferramenta.
7. Interação social
Estabelecer inicialmente o procedimento a ser adotado junto aos autores (professores
especialistas, pesquisadores e professores da Instituição), a fim de garantir que os documentos
sejam disponibilizados na biblioteca digital. Para isso, faz-se necessário desencadear normas para a
elaboração de um documento com as definições dos direitos autorais, visando à preservação tanto
da autoria quanto da instituição.
7. Biblioteca Digital em sala de aula Em uma biblioteca digital, podem ser disponibilizadas na mesma plataforma, apostilas,
livros, vídeos, sons e assim por diante. Permitindo ao professor e aluno não só buscar a informação
de forma integrada, como também produzir novos documentos. O professor deve incentivar e
monitorar as atividades de produção desses novos documentos, pois poderão ser disponibilizados
para pesquisas futuras, ao serem inseridos no acervo.
O sistema possui uma ferramenta de ajuda aos professores, pois permite a eles ministrarem
aulas no laboratório de informática através da utilização de documentos. Devido ao professor e
alunos estarem no mesmo ambiente físico, o sistema permite ao professor selecionar e explanar
verbalmente um parágrafo ou um fragmento da frase. As palavras que forem selecionadas pelo
professor serão vistas nas máquinas dos alunos com uma cor diferente, sendo que a informação
visualizada na tela será atualizada a cada 2 segundos.
8. Os Direitos Autorais Um dos problemas mais discutidos pelos desenvolvedores e pesquisadores das bibliotecas
digitais é a questão dos direitos autorais. Sem dificuldade nenhuma, um leitor/internauta pode
colocar uma obra, de sua autoria ou de terceiros, disponível a milhares de pessoas (DINIZ, 2005).
98
Assim criando uma relutância por parte dos autores em disponibilizar sua obra em um ambiente
com muitas facilidades para leitura, cópia e impressão das obras.
É difícil respeitar a legislação de direito autoral com material impresso e as copiadoras, esse
controle se torna praticamente impossível com a informação digital. Este é um dos fatores por que a
maioria das bibliotecas trabalha apenas com obras de domínio público (DINIZ, 2005).
9. Preservação dos documentos O foco principal de uma biblioteca digital é o documento eletrônico ou documento digital,
sendo todo registro gerado ou recebido por uma entidade pública ou privada, no desempenho de
suas atividades, armazenado e disponibilizado ou não, através de sistemas computacionais
(SANT’ANNA, 2005).
Na utilização do documento digital preservar o documento original, muitas vezes esse tem
valor histórico. Pois o usuário utiliza apenas uma copia digital. Mas uma questão importante a ser
levantada é a necessidades de preservação e garantia de autenticidade dos documentos digitais.
A preservação da informação deve ser considerada na implementação de uma biblioteca
digital. Apesar dos meios físicos de armazenamento (fita, cartucho digital, disco magnético e CD-
rom) comportar grande volume de informação, tem durabilidade em media de 10 a 20 anos. Os
meios de suporte tem uma constante obsolescência dos equipamentos e programas. Assim, à medida
que os sistemas computacionais são alterados, também os suportes que registram a informação
digital devem ser mudados (CUNHA, 1999, p. 265).
Deve-se garantir a geração de novos materiais, mantendo as informações atualizadas e
constantes no acervo. Esse investimento deve ser levado em consideração no momento de discutir
os direitos de uso e reuso dos objetos digitais, junto com a contratação de mão de obra técnica
especializada. Se não houver nenhum plano administrativo que cubra esses itens, nenhuma
manutenção do acervo em longo prazo será bem-sucedida (KEMPINAS, 2004, p. 5-8).
Uma característica importante do acervo é a capacidade de manter todas ou algumas
versões de um mesmo documento. Entretanto, em cada um deles será necessário acrescentar ou
apagar as hiperligações desses objetos. Esse problema poderá ser crucial num acervo jurídico, onde
a validade legal de direitos ou deveres deverá ser emanado a partir de um texto consolidado ou
aprovado por uma determinada autoridade (CUNHA, 1999, p. 265).
99
10. Conclusão
O projeto de uma Biblioteca Digital foi desenvolvido com o objetivo de ser uma ferramenta
que auxilia o processo de ensino voltado para as necessidades do colégio de Aplicação da Univali.
Ele exerce a função tradicional de uma biblioteca que é manter um acervo de documentos, mais
também permite que os profissionais da educação tenham nesta ferramenta uma ajuda no processo
de ensino através da informática, utilizando os recursos da ferramenta.
A ferramenta permite ao professor formar turmas de alunos e ministrar aulas em laboratórios
de informática através de documentos digitais, juntamente com um sistema de questionário para que
avaliar a aprendizagem dos alunos. Para ministrar aulas em laboratório desenvolveu-se uma
interação entre a máquina do professor e a dos alunos. O desenvolvimento desta integração se fez
através de técnicas utilizadas em sistemas de bate-papos, onde as máquinas conversam entre si
através de variáveis no servidor, buscando atualizações a cada intervalo de tempo, a finalidade desta
interação permite ao aluno visualizar o texto e o fragmento da frase a qual o professor gostaria de
dar ênfase. Através de uma interface o professor pode disponibilizar um texto e questões a serem
respondidas pelos alunos. Como o sistema é desenvolvido em ambiente WEB os alunos podem
responder o questionário em casa. O professor pode acompanhar quais alunos que já responderem e
quais os acertos que fizeram. Para cada aluno as perguntas podem ser diferentes visto que o sistema
sorteia as questões para cada um.
O aluno poderá interagir com a Biblioteca Digital, enviando documentos para o acervo, onde
o professor deverá incentivar a aprendizagem dos alunos através da pesquisa e criação de novos
documentos, assim também garantindo a expansão natural do acervo desta Biblioteca.
A estrutura do SRI desenvolvida se comporta eficazmente, pois mantêm o mínimo de
palavras na estrutura de índice, sendo que as palavras com varias ocorrência no documente, são
identificadas e contadas, e o texto é mantido integramente no formato original, e as palavras
identificadas como relevantes são mantidas em um arquivo de cache.
Acredita-se que com a implementação desta Biblioteca Digital ocorrerá um melhor
aproveitamento dos recursos digitais no processo de ensino do CAU, tanto na utilização da
biblioteca para armazenar os documentos quanto na utilização do laboratório para ministrar aulas e
questionários.
11. REFERÊNCIAS BIBLIOGRÁFICAS
CRUZ, Vilma Aparecida Gimenes da. Projeto de implantação e implementação da biblioteca digital da UNOPAR como suporte básico ao ensino a distância. Universidade Norte do Paraná, 2004. Disponível em: <http://www.abed.org.br/congresso2004/por/htm/152-TC-D2.htm>. Acesso em: 22 mai 2005.
CUNHA, Murilo Bastos da. Desafios na construção de uma biblioteca digital. Ciência da Informação, Brasilia, v. 28, n. 3, p. 255-266, 1999. Disponível em: <http://eprints.rclis.org/archive/00003707/01/Murilo_1999.pdf>. Acessado em: 11 jun. 2005.
DIAS, Guilherme Ataíde. Periódicos eletrônicos: Considerações relativas à aceitação deste recurso pelos usuários. Ciência da Informação, Brasília, v.31, n.3, p. 18-25. 2002. Disponível em: <http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=471&article=175&mode=pdf >. Acessado em: 11 mai. 2005.
DINIZ, Patrícia. Biblioteca do futuro: Sem paredes e barreiras físicas as bibliotecas ampliam suas fronteiras e democratizam a informação. 2005. Disponível em: <http://www.cg.org.br/gt/gtbv/artigo02.htm>. Acessado em: 23 mai. 2005.
FERNEDA, Edberto. Recuperação de informação: Análise sobre a contribuição da ciência da computação para a ciência da informação. 2003. 147 f. Tese (Doutorado em biblioteconomia e documentação) - Universidade de São Paulo, São Paulo, 2003. Disponível em: <http://www.teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/publico/Tese.pdf>. Acessado em: 22 mai. 2005.
GONZALEZ, Marco; LIMA, Vera Lúcia Strube de. Recuperação de Informação e expansão automática de consulta com thesaurus: uma avaliação. In: CONFERÊNCIA LATINOAMERICANA DE INFORMÁTICA 27., 2001, Mérida Memórias.. [S.l.]: CLEI, 2001. v. 1. p. 1-10. Disponível em:<http://www.inf.pucrs.br/~gonzalez/docs/expanconsul.pdf>. Acessado em: 11 mai. 2005.
GONZALEZ, Marco; POHLMANN FILHO, Omer; BORGES, Karen Selbach. Informação digital no ensino presencial e no ensino a distância. Porto Alegre, 2001. Disponível em: <http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=525&article=236&mode=pdf >. Acessado em: 22 mai. 2005.
KEMPINAS, Ana Lucia de Grava. Implantação da biblioteca digital de teses e dissertações da Universidade Estadual Paulista - UNESP. In: SIMPÓSIO INTERNACIONAL DE BIBLIOTECAS DIGITAIS, 2. Anais... Campinas, 2004.
MARCHIORI, Patricia Zeni. “Ciberteca” ou biblioteca virtual: uma perspectiva de gerenciamento de recursos de informação. Ciência da Informação, Brasília, v.26, n.2, p. 115-124, maio/ago 1997. Disponível em: http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=750&article=427&mode=pd. cessado em: 22 mai. 2005.
101
SANTOS, Wanderley Alves dos. Digitalização e manipulação da imagem aplicada na formação do professor de educação artística. Revista latinoamericana de tecnología educativa, Goiania, v.2, n. 1, 1997. Disponível em: <http://www.unex.es/didactica/RELATEC/Relatec_2_1/alves_2_1.pdf>. Acesso em: 14 mai 2005.
SANTOS, Wanderley Alves dos. Digitalização e manipulação da imagem aplicada na formação do professor de educação artística. Revista latinoamericana de tecnología educativa, Goiania, v.2, n. 1, 1997. Disponível em: <http://www.unex.es/didactica/RELATEC/Relatec_2_1/alves_2_1.pdf>. Acesso em: 14 mai 2005.
SILVEIRA, Maria de Lourdes da. Recuperação vertical de informação: Um estudo de caso na área jurídica. 2003. 134 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Minas Gerais, Minas Gerais, 2003. Disponível em: <http://www.ip.pbh.gov.br/revista0501/ip0501silveira.pdf>. Acessado em: 22 maio 2005.
WIVES, Leandro Krug. Tecnologias de descoberta de conhecimento em textos aplicadas à inteligência competitiva. Exame de qualificação: Instituto de Informática, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2002.
SANT’ANNA, Marcelo Leone. Os desafios da preservação de documentos públicos digitais. Fundação João Pinheiro, Belo Horizonte. Disponível em: <http://www.ip.pbh.gov.br/revista0302/ip0302santanna.pdf>. Acessado em: 1 jun. 2005.