UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS ...siaibib01.univali.br/pdf/Rodrigo Nunes.pdf · universidade do vale do itajaÍ centro de ciÊncias tecnolÓgicas da terra e do

UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR

CURSO DE CIÊNCIA DA COMPUTAÇÃO

BIBLIOTECA DIGITAL APOIANDO O ENSINO

Área de Informática na Educação

por

Rodrigo Irineu Nunes

Gilberto Grandi, Dr. Orientador

Itajaí (SC), junho de 2005

UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR

CURSO DE CIÊNCIA DA COMPUTAÇÃO


Área de Informática na Educação

por

Rodrigo Irineu Nunes Relatório apresentado à Banca Examinadora do Trabalho de Conclusão do Curso de Ciência da Computação para análise e aprovação. Orientador: Gilberto Grandi, Dr.

Itajaí (SC), junho de 2005

SUMÁRIO

LISTA DE ABREVIATURAS.................................................................. iv

LISTA DE FIGURAS.................................................................................v

LISTA DE TABELAS..............................................................................vii RESUMO..................................................................................................viii ABSTRACT................................................................................................ ix

1. INTRODUÇÃO......................................................................................1 1.1. OBJETIVOS ........................................................................................................ 3 1.1.1. Objetivo geral .................................................................................................... 3 1.1.2. Objetivos específicos ......................................................................................... 3 1.2. METODOLOGIA................................................................................................ 3 1.3. ESTRUTURA DO TRABALHO ....................................................................... 4

2. FUNDAMENTAÇÃO TEÓRICA ........................................................5 2.1. RECUPERAÇÃO DE INFORMAÇÕES.......................................................... 5 2.1.1. Abstração de informações ................................................................................ 6 2.1.2. Formatos dos documentos................................................................................ 7 2.1.3. Relevância da informação ................................................................................ 8 2.1.4. Usuário e interface ............................................................................................ 9 2.1.5. Tipos de SRI ...................................................................................................... 9 2.1.6. Técnicas de recuperação de informações textuais ....................................... 11 2.1.7. Estruturas de armazenamento ...................................................................... 18 2.1.8. Busca e visualização........................................................................................ 21 2.2. BIBLIOTECA DIGITAL ................................................................................. 22 2.2.2. Benefícios da implantação de uma Biblioteca Digital ................................. 26 2.2.3. Planejamento de uma Biblioteca Digital....................................................... 27 2.2.4. Os direitos autorais ......................................................................................... 29 2.2.5. Documentos digitais ........................................................................................ 29 2.2.6. Preservação dos documentos ......................................................................... 30 2.3. FERRAMENTAS SEMELHANTES............................................................... 31 2.3.1. Biblioteca Digital de Teses e Dissertações da UFRGS – BDTD ................. 31 2.3.2. Biblioteca Digital da UNICAMP ................................................................... 33

3. PROJETO.............................................................................................36 3.1. REQUISITOS .................................................................................................... 36 3.1.1. Requisitos funcionais ...................................................................................... 36 3.1.2. Requisitos não funcionais ............................................................................... 37 3.2. DIAGRAMAS DE CASOS DE USO ............................................................... 39 3.2.1. Caso de uso do Sistema de Recuperação de Informação ............................ 39 3.2.2. Caso de uso do sistema de apoio ao ensino ................................................... 40

iii

3.3. DIAGRAMAS DE ATIVIDADES ................................................................... 42 3.3.1. Aula (Sincronismo) ......................................................................................... 42 3.3.2. Pacote - Sistema de Recuperação de Informação ........................................ 43 3.4. MODELO LÓGICO ......................................................................................... 47 3.4.1. Dicionário de dados......................................................................................... 48 3.5. DESENVOLVIMENTO.................................................................................... 50 3.5.1. Sistema de Recuperação de informação ....................................................... 50 3.5.2. Estrutura do SRI............................................................................................. 59 3.5.3. Armazenamento dos documentos.................................................................. 61 3.5.4. Características da Biblioteca Digital............................................................. 62 3.5.5. Sistema de Apoio ao Ensino ........................................................................... 63 3.5.6. Gerenciar a Turma ......................................................................................... 63 3.5.7. Gerenciar aula ................................................................................................. 65 3.5.8. Questionários e Relatório Desempenho ........................................................ 65 3.5.9. Aula em Laboratório ...................................................................................... 67

4. AVALIAÇÃO DO SISTEMA.............................................................68

5. CONCLUSÃO ......................................................................................70

REFERÊNCIAS BIBLIOGRÁFICAS ...................................................72

APÊNDICE A – RELATÓRIO DOS CENÁRIOS ...............................76

APÊNDICE B – ANALISADOR LÉXICO DE SELEÇÃO DOS ENDEREÇOS ...........................................................................................81

APÊNDICE C – IDENTIFICAÇÃO DE TERMOS .............................83

APÊNDICE D – TABELA DE TERMOS INVÁLIDOS - STOPWORDS ............................................................................................86

APÊNDICE E – FUNÇÃO MORFOLÓGICA......................................87

APÊNDICE F – QUESTIONÁRIO DE VALIDAÇÃO........................88

ANEXO I – ARTIGO...............................................................................89

LISTA DE ABREVIATURAS

ASCII American Standard Code for Information Interchange CAU Colégio de Aplicação da Universidade do Vale do Itajaí CRC32 Cyclic Redundancy Checksum de 32-bit CTTMAR Centro de Ciências Tecnológicas da Terra e do Mar HTML Hypertext Markup Language PDF Portable Document Format PHP Hypertext Preprocessor RI Recuperação de Informação RTF Rich Text Format Sibiun Sistema Integrado de Bibliotecas da Univali SRI Sistemas de Recuperação de Informações TCC Trabalho de Conclusão de Curso UML Linguagem de Modelagem Unificada. UNIVALI Universidade do Vale do Itajaí URL Universal Resource Location.

LISTA DE FIGURAS

Figura 1. Representação do processo de recuperação de informação ..................................................6 Figura 2. O processo de abstração........................................................................................................7 Figura 3. Página Yahoo - Referente a categoria Biblioteca ...............................................................13 Figura 4. Página Yahoo - Processo de indexação automático............................................................14 Figura 5. Arquivo HTML com demonstração de endereços de internet ............................................14 Figura 6. Demonstração do analisador léxico ....................................................................................15 Figura 7. Identificação de stopwords .................................................................................................17 Figura 8. Estrutura de uma lista invertida ..........................................................................................19 Figura 9. Método de assinatura ..........................................................................................................21 Figura 10. Mecanismo de busca BDTD - UFRGS.............................................................................32 Figura 11. Forma de acesso aos Metadados.......................................................................................32 Figura 12. Mecanismo de busca da biblioteca digital da UNICAMP................................................33 Figura 13. Resultado da busca da biblioteca digital da UNICAMP...................................................34 Figura 14. Requisitos funcionais........................................................................................................36 Figura 15. Requisitos de segurança....................................................................................................37 Figura 16. Requisitos de confiabilidade.............................................................................................37 Figura 17. Requisitos de software e hardware ...................................................................................38 Figura 18. Requisitos de interface......................................................................................................38 Figura 19. Caso de Uso do Sistema de Recuperação de Informação .................................................39 Figura 20. Caso de Uso do sistema de apoio ao ensino .....................................................................40 Figura 21. Diagrama de Atividade – UC ENS 07 - Aula (Sincronismo) ...........................................42 Figura 22. Diagrama de Atividade – UC SRI 02 - Envio de Documento ..........................................43 Figura 23. Diagrama de Atividade – UC SRI 01 - Consulta SRI.......................................................45 Figura 24. Modelo lógico do Sistema de Biblioteca digital ...............................................................47 Figura 25. Formulário: Envio de Documentos para o acervo ............................................................51 Figura 26. Formulário de Edição........................................................................................................51 Figura 27. Formulário: Lista os termos do dicionário........................................................................53 Figura 28. Formulário: Manutenção de stopwords. ...........................................................................53 Figura 29. Resultados gerados pela Análise Morfológica..................................................................55 Figura 30. Formulário: Indexação Automática. .................................................................................55 Figura 31. Representação da estrutura de índice................................................................................56 Figura 32. Formulário de Busca. ........................................................................................................58 Figura 33. Sistema de sugestão de consulta. ......................................................................................58 Figura 34. Estrutura do SRI................................................................................................................60 Figura 35. Formulário de solicitação de inclusão de aluno em uma turma........................................64 Figura 36. Formulário de inclusão de aluno feita pelo professor.......................................................64 Figura 37. Formulário controle de aula. .............................................................................................65 Figura 38. Formulário de resposta do questionário............................................................................65 Figura 39. Formulário de Relatório....................................................................................................66 Figura 40. Formulário de avaliação das respostas por aluno. ............................................................66 Figura 41. Sincronismos da aula. .......................................................................................................67 Figura 42. Página do CTTMAR.........................................................................................................81 Figura 43. Código fonte do analisador léxico. ...................................................................................81 Figura 44. Resultado do Analisador léxico. .......................................................................................82 Figura 45. Página do CTTMAR – Para identificação de Termos ......................................................83 Figura 46. Código fonte do identificador de termos. .........................................................................84

vi

Figura 47. Resultado com termos identificados. ................................................................................85 Figura 48. Função morfológica ..........................................................................................................87 Figura 49. Questionário de validação.................................................................................................88 Figura 50. Representação do processo de recuperação de informação ..............................................91

LISTA DE TABELAS

Tabela 1. Algoritmos Hash ................................................................................................................20 Tabela 2. Indicadores de qualidade ....................................................................................................34 Tabela 3. Funcionalidades dos casos de uso – Sistema de Recuperação de Informação...................40 Tabela 4. Funcionalidades dos casos de uso – Apoio ao ensino ........................................................41 Tabela 5. Dicionário de dados............................................................................................................48 Tabela 6. Ocupação dos documentos em disco..................................................................................61 Tabela 7. Comparação entre as Bibliotecas Digitais..........................................................................62 Tabela 8. Tabela de Validação. ..........................................................................................................68 Tabela 9. Termos irrelevantes ............................................................................................................86

RESUMO

NUNES, Rodrigo Irineu. Biblioteca digital apoiando o ensino. Itajaí, 2005. 74 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação)–Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2005. A informação digital associada ao ensino apresenta-se como alternativa aos modelos de ensino tradicionais, possibilitando um processo educacional independente de tempo ou lugar. No aspecto colaborativo, ainda promove através da formação de grupos de estudo, a troca de conhecimentos e a valorização das interações entre alunos, e entre alunos e professores. Entretanto, para que o modelo educacional seja completo é necessário um mecanismo que disponibilize os materiais didáticos e complementares. Nesse sentido, o presente projeto refere-se à criação e operação de uma biblioteca digital, desenvolvida para apoiar o ensino no Colégio de Aplicação da Univali. Têm como objetivos preservar a memória institucional e disponibilizar material didático gerado pelos professores e alunos, proporcionando maior visibilidade e acesso, através da Internet. Aborda um sistema de recuperação de informação onde permite um sistema de busca por campos (autor, título entre outros), e através de termos relevantes presentes nos textos. Palavras-chave: Bibliotecas Digitais. Recuperação da Informação. Informática na Educação.

ABSTRACT

The digital information associated to the teaching, it is presented as alternative to the models of traditional teaching, turning possible an independent educational process of time and place. In the collaborative aspect, it is still promote, through the formation of study group, the change of knowledge and the valorization of interactions among students, and between students and teachers. However, it is necessary a mechanism that turns available the didactic materials and complements to the educational model is complete. In this way, the present project is referred to the creation and operation of a digital library, developed to support the teaching at Colégio de Aplicação da UNIVALI. The main objectives are to preserve the institutional memory and to turn available didactics material generated by teachers and students, providing a greater visibility and accessibility, through Internet. It approaches a recuperation system of information where allows a search system by fields (author, title among others), and through the present relevant terms in the texts. Keywords: Digital Library. Recuperation of Information. informAtics in Education.

1. INTRODUÇÃO

Desde a criação da escrita até as tecnologias da informação dos dias de hoje, existe a

necessidade de armazenar e recuperar as informações já geradas. Pois a cada dia a base de

informação aumenta, sendo neste processo criadas novas informações e descartando outras. Esta

evolução constante da informação dificulta o processo de pesquisa, gera um dinamismo nas formas

de adquirir essas informações. Se tornado um desafio para os membros da sociedade conseguirem

avaliar e assimilar todas estas informações.

Para acompanhar essas evoluções as instituições de ensino também tiveram que evoluir

quanto ao seu processo de ensino. Para estarem adaptadas aos novos conhecimentos precisaram

criar novos métodos de ensino, tais como, atividades extra-classe, pesquisas, trabalhos de campo,

levantamento histórico e geográfico regional. Muitos destes conteúdos não estão documentados ou

presentes em bibliografias. Estas atividades realizadas por alunos e professores geram materiais

como por exemplo: textos, tabelas, imagens, apresentações e etc. Uma das maiores dificuldades dos

professores é manter estes documentos para uso futuro, com outras turmas de alunos. Para isso, se

propôs a construção de um sistema com o objetivo de armazenar os documentos para que os

mesmos possam ser reutilizados futuramente. Atualmente, estas informações são perdidas e depois

refeitas gerando trabalho adicional para professores e alunos. Nas pesquisas efetuadas com

professores e na internet, não se encontrou nenhum sistema que satisfaça estas necessidades dos

professores do Colégio de Aplicação da Univali (CAU).

Os materiais produzidos são utilizados para leitura e/ou pesquisa em outras turmas. Neste

caso, para que outras classes possam tirar proveito das informações já levantadas, ou até mesmo

expandir os documentos já existentes, necessita-se de um sistema que possa integrar recursos

computacionais e pedagógicos com interação do aluno. Para isso, propõe-se um sistema de apoio ao

professor para armazenar os conteúdos, que possa ser utilizado para dar aula em laboratório e

disponibilizando as informações na internet.

Acredita-se que o sistema desenvolvido venha a colaborar com as necessidades dos

professores. Neste sentido, o uso da informática pode auxiliar os professores na transmissão do

conhecimento e na aquisição de um novo modo de ensinar, mais criativo e dinâmico. Afinal, “o

computador é um instrumento poderoso e versátil, que, se usado com inteligência e competência,

2

pode tornar-se um excelente recurso pedagógico à disposição do professor em sala de aula.”

(CHAVES; SETZER, 1988).

Segundo Mercado, (2002) o uso do computador na educação tem como objetivo promover a

aprendizagem dos alunos e ajudar na construção do processo de conceituação e no desenvolvimento

de habilidades importantes para que ele participe da sociedade do conhecimento e não

simplesmente facilitar o seu processo de aprendizagem. É preciso criar ambientes propícios aos

alunos, que os possibilitem aprender através da compreensão do que estão desenvolvendo e da

percepção do que são capazes de produzir. Estes ambientes devem oferecer uma atmosfera

estimulante, desafiadora e criativa para que de fato auxiliem no processo de aprendizagem.

A ferramenta desenvolvida neste projeto, inicialmente está sendo utilizada no CAU, para as

turmas de 1ª a 4ª séries, com foco na 3ª série contendo informações culturais e históricas sobre o

município de Itajaí. Os professores que ministram estes assuntos alegam que na maioria das vezes o

material não existe em livros didáticos, sendo necessário elaborá-los para serem ministrados.

Apesar do uso inicial ser para o CAU, o sistema poderá ser expandido e utilizado em qualquer rede

de ensino e em qualquer classe.

No decorrer do desenvolvimento deste projeto, foram utilizadas as seguintes tecnologias e

conceitos computacionais: banco de dados para armazenar dados dos alunos, textos e imagens;

sincronização entre computadores de um laboratório; técnicas de recuperação de informação; e

permitir a disponibilização das informações em ambiente Web.

3

1.1. OBJETIVOS

1.1.1. Objetivo geral

Desenvolver um sistema para apoio ao ensino do Colégio de Aplicação da Univali

permitindo que professores e alunos armazenem e recuperem materiais de ensino.

1.1.2. Objetivos específicos

Os objetivos específicos deste projeto de pesquisa são:

• Cadastrar as turmas e/ou grupos de alunos envolvidos em uma atividade;

• Cadastrar os questionários e suas respostas;

• Banco de dados para armazenar as informações que vão compor a biblioteca de

conteúdos;

• Recuperar informações existentes na biblioteca, através da definição e implementação de

um método de busca adequado ao contexto.

• Sincronização entre diversos computadores para que todos os alunos assistam o mesmo

conteúdo quando este for ministrado em laboratório;

• Realizar a modelagem do Sistema;

• Testar e validar a implementação do Sistema; e

• Documentar o desenvolvimento e os resultados do sistema.

1.2. METODOLOGIA

Para a fundamentação teórica foram realizadas pesquisas em livros, artigos e publicações,

realizou-se também, entrevistas com profissionais que trabalham no ensino fundamental da

UNIVALI.

A metodologia adotada para o desenvolvimento deste trabalho, segue as seguintes etapas:

Estudo através da Internet, utilizando sites de busca como o Google, Yahoo, sites

especializados em desenvolvimento como sourgeforge.net, php.net, phpbrasil.com entre outros para

4

pesquisar e avaliar soluções similares. A pesquisa se iniciou com a busca de documentos que

definam os métodos de recuperação de informação, bibliotecas digitais e informática na educação;

Estudo dos métodos de recuperação de informação e seus modelos;

Utilizando a Análise Orientada a Objetos seguindo a notação UML onde é feita a análise do

sistema, ou seja, os requisitos, diagramas e especificações dos casos de uso. Através da análise são

extraídos os dados para fazer à modelagem do banco de dados e o dicionário de dados, para a qual

foi utilizada a ferramenta Power Designer; e

A etapa seguinte é composta da implementação dos requisitos do sistema juntamente com

testes e validação do sistema. Onde são levantados os problemas ocorridos no processo de

implementação, necessitando de um feedback da etapa anterior afim de eliminar as inconsistências

com a modelagem já realizada.

1.3. ESTRUTURA DO TRABALHO

O trabalho está dividido em quatro capítulos: Introdução, Fundamentação Teórica, Projeto e

Conclusões.

No capítulo Introdução é oferecido uma síntese do trabalho, definindo os objetivos,

apresentando a metodologia de desenvolvimento e a estrutura do trabalho. Em seguida, no capítulo

Fundamentação Teórica, é exposto o conteúdo teórico do trabalho fundamentado nas bibliografias

indicadas no próprio texto. Este capítulo está dividido em três Sessões:

1. Recuperação de informações: uma breve explanação das suas características e de suas

funcionalidades na construção de sistema de recuperação de informação através de

palavras relevantes;

2. Biblioteca Digital: apresenta as etapas de construção de uma Biblioteca digital e seus

componentes, junto com a análise dos direitos autorais e documentos; e

3. Ferramentas semelhantes: expõe duas bibliotecas digitais desenvolvidas pela UFRGS e

pela UNICAMP, que muito se assemelha com a biblioteca desenvolvida.

O capítulo 3 apresenta o Projeto, constando às funcionalidades do sistema, modelagem do

sistema, desenvolvimento, validação e testes finais.

2. FUNDAMENTAÇÃO TEÓRICA

A fundamentação teórica do trabalho está dividida em três Sessões e aborda os assuntos referentes

a: Recuperação de informações (onde é feita uma explanação e também a classificação dos

processos de um sistema de recuperação de informação); Biblioteca digital (apresenta as definições

de uma biblioteca digital e seus componentes); Sistemas Similares (aborda a existência de algumas

bibliotecas desenvolvida para auxiliar na buscar de informação).

2.1. RECUPERAÇÃO DE INFORMAÇÕES

O homem sempre necessitou ampliar seu conhecimento, sendo este um processo de

aquisição constante e essencial em sua vida cotidiana e profissional. Com o avanço das tecnologias

da informação, o conhecimento tornou-se dinâmico e volumoso. Necessitou elaborar meios para

armazenagem, localização e manipulação das informações para que possa ser utilizada de maneira

popular. A fim de atender essas necessidades foram desenvolvidas as técnicas de recuperação de

informação.

“Os Sistemas de Recuperação de Informação (SRI) foram criados para facilitar o acesso à

informação em uma coleção de documentos digitais. Esses sistemas permitem organizar,

padronizar, indexar e recuperar informações sobre os documentos de uma coleção” (SILVEIRA,

2003, p. 133).

Em 1950 o termo “Recuperação de Informação” (RI), foi utilizado pela primeira vez em um

artigo cientifico, por Calvin Moores, sendo uma atividade que envolve os aspectos de descrição de

informação (indexação, padronização) e sua especificação para busca, além de qualquer técnica,

sistema ou máquina empregada para realizar ou auxiliar essas tarefas (WIVES, 2002, p. 23).

Atualmente, o SRI consiste na busca de documentos relevantes a uma dada consulta que

expressa a necessidade de informação do usuário. Esses documentos podem não apenas ser

informações textualizadas, mas serem sons, imagens, vídeos e outros tipos de dados (GONZALEZ;

LIMA, 2001). Uma representação simplificada do processo de recuperação de informação é

apresentada na Figura 1.

6

Figura 1. Representação do processo de recuperação de informação Fonte: Adaptado de Ferneda (2003, p. 15).

2.1.1. Abstração de informações

Os sistemas não recuperam informação, mas sim os documentos ou referências que contem

as informações que possa suprir a necessidade do usuário (FERNEDA, 2003, p. 11). Sendo que os

documentos são o portador das informações em seu interior, onde contem as características

relevantes para o usuário.

Uma etapa importante no desenvolvimento de um SRI é determinar as características mais

relevantes em um documento como autores, título, palavras chaves entre outros. Conforme Wives

(2002, p. 28), é através das características de um documento que o SRI é capaz de identificá-lo

como relevante para o usuário. Portanto uma das primeiras interações entre os documentos e o SRI

é poder identificar estas características do documento e criar uma representação do mesmo. Esta

representação nada mais é do que uma abstração do documento através de alguma modelagem.

Porém, se na modelagem adotada não representar corretamente o documento ou se uma de suas

características não for considerada, o usuário pode não conseguir localizar e recuperar esse

documento.

Determinado as características mais relevantes para a representação dos documentos, torna-

se necessário analisar cada um dos documentos, selecionar essas características e armazená-las.

Usuário

Função de Busca

Documentos

Representação de termos

Expressão de Busca

7

Sendo que este processo de modelagem pode ser realizado manualmente ou automaticamente

(WIVES, 2002, p. 29).

A Figura 2 demonstra o processo de abstração, onde as informações são analisadas

manualmente ou automaticamente. Após a análise, as características são armazenadas, conforme

algum modelo adotado em uma representação interna (WIVES, 2002, p. 29).

Figura 2. O processo de abstração Fonte: Wives (2002, p. 29).

2.1.2. Formatos dos documentos

Inicialmente o documento foi um termo utilizado para denotar um registro textual (um

texto). Porém, existem outros objetos que também contém e transmitem informações, como uma

pintura, uma figura, um gráfico, uma escultura, um filme ou outro objeto qualquer, desde que ele

transmita informação e esteja contido em material físico ou em formato digital (WIVES, 2002, p.

24).

No início do século XX o termo "Documentação" foi cunhado por Paul Orlet. que também a sistematizou e previu tecnologias que seriam úteis para sua operacionalização. Orlet em seu "Traité de Documentation" (1934), mostra-se interessado em toda novidade tecnológica que permita condesar e organizar a informação de acordo com suas necessidades e objetivos “ (FERNEDA, 2003, p. 5).

8

As técnicas apresentadas neste trabalho de conclusão de curso consideram apenas os

documentos textuais. Os arquivos como imagens, sons, vídeos serão armazenados integralmente e

representados através de uma descrição textual. Sendo apenas adicionados na estrutura de índice os

arquivos de formatos ASCII, sendo que os formatos trabalhados (RTF, TXT, HTML) serão tratados

por serem formatos padrões em ambiente web. Segundo Vit (2000), o formato ASCII, é aceito pela

maioria dos sistemas computacionais. Este tipo de codificação de texto não usa formatações

especiais, e nem marcações são aceitas, apenas seqüências de caracteres e alguns símbolos da

linguagem. Deve-se esclarecer isto porque existem técnicas de recuperação de informação para

muitos tipos específicos de arquivos textuais ou que se adaptam melhor a um determinado tipo.

2.1.3. Relevância da informação

Conforme Ferneda (2003, p. 12), os primeiros sistemas de recuperação de informação

baseavam-se na contagem de freqüência das palavras do texto e na eliminação de palavras

reconhecidamente de pouca relevância.

O termo “informação é uma propriedade dos dados resultante de ou produzidas por um processo realizado sobre os dados. O processo pode ser simplesmente a transmissão de dados; pode ser a seleção de dados; pode ser a organização de dados; pode ser a análise de dados” (HAYES, 1986, apud FERNEDA, 2003, p. 9).

Um sistema de recuperação de informações só pode retornar informações relevantes para o

usuário. Isso porque informação relevante é aquela informação que o usuário necessita em

determinado momento para a realização de alguma tarefa, ou seja, ela deve estar no contexto que o

usuário deseja e no momento certo (WIVES, 2002, p. 25).

No caso, do usuário solicitar informação sobre “7 de setembro”, buscando informação sobre

a data histórica. Tendo nenhuma relevância neste momento o termo “Rua 7 de setembro”, pois

assume que o usuário já conhece esta informação e não a necessita.

Conforme Wives (2002, p. 27), o SRI é a “interface” entre o usuário e os documentos de

uma coleção. Tendo a função de receber a consulta do usuário e pesquisar na coleção de

documentos ou descrições de documentos armazenados em seu banco de dados e retornar o

resultado da pesquisa com documentos relevantes.

9

2.1.4. Usuário e interface

A interface do SRI recebe a expressão de busca do usuário, e deve resultar na recuperação

de uma lista de documentos possivelmente relevantes. Permitindo que possibilite a verificação de

cada um deles a fim de selecionar os que são úteis. A principal dificuldade do usuário é converter

sua necessidade em uma expressão de busca, condizentes com as palavras ou expressões utilizadas

para representar os documentos no momento da armazenagem (FERNEDA, 2003, p. 14-19).

Um problema que deve ser considerado é o fato do formalismo do SRI não permitir com que

o usuário descreva ou expresse corretamente sua necessidade. Isso pode ocorrer, por exemplo, em

sistemas cujo documento seja do tipo imagem e a forma de consulta não permita com que o usuário

desenhe imagens, mas sim, descreva-as através de uma forma textual (WIVES, 2002, p. 30).

Wives (2002, p. 30) descreve o problema de vocabulário. Mesmo que o usuário consiga

descrever corretamente sua necessidade de informação, pode não ser recuperado exatamente o que

ele espera. Isso porque cada pessoa descreve um mesmo objeto de diversas formas.

2.1.5. Tipos de SRI

A seguir são detalhados os principais tipos de SRI e suas características. Aborda-se apenas

sistema realizado automaticamente, desconsiderando os métodos realizados manualmente. Pelo fato

deste projeto estar interessado na área computacional, além de seguir a tendência tecnológica.

2.1.5.1. Sistemas de recuperação de informação bibliográfica

O primeiro modelo adotado foi o sistema de recuperação de informação bibliográfica,

conhecido por sistemas de catálogos. O objeto a ser catalogado é descrito pelos atributos mais

relevantes do mesmo (por exemplo: título, autor, data, resumo-descrição, palavras-chave) e estes

são adicionados ao sistema. Quando o usuário consulta o sistema, apenas a referência bibliográfica

(os atributos) ao(s) objeto(s) relevante(s) é retornada. Indicando onde o documento pode ser

encontrado. Este documento pode ser de qualquer tipo, já que não necessariamente os armazenam,

mas sim, mantêm sua referência em um índice (WIVES, 2002, p. 34). Como exemplo deste modelo,

tem-se o ELISA - Sistema Integrado de Bibliotecas (ELISA, 2005), que é composto por uma

biblioteca central, uma setorial, uma biblioteca infantil, uma de núcleo e cinco bibliotecas de campi.

10

2.1.5.2. Sistemas de recuperação de informação textual

Os sistemas de recuperação textual são sistemas que manipulam basicamente informações

do tipo texto (ASCII). Armazenando e manipulando todo o objeto (texto) em seu sistema. Apesar

disso, com a utilização de filtros, outros formatos que contenham textos, figuras, tabelas e imagens,

mas que possuam um aspecto de documento textual (tais como o PDF, o RTF e o DOC, também

podem ser manipulados) (WIVES, 2002, p. 34).

O sistema de busca AltaVista (2005), pois exemplo, pode ser considerado um sistema de

recuperação de informações por utiliza tecnologias da área RI (WIVES, 2002, p. 34).

2.1.5.3. Sistemas de recuperação de informação visual

Os primeiros sistemas de recuperação de informações visuais utilizavam um modelo textual

para descrever essas informações. Porém, pelo fato de diferentes pessoas compreenderem uma

figura de maneiras diferentes, a descrição de uma imagem pode variar de uma pessoa para outra.

Devendo utilizar um modelo visual de representação e descrição da informação (CHANG, 1997

apud WIVES, 2002, p. 35).

Para um sistema que manipule imagens, o ideal é que o usuário possa descrever sua consulta

utilizando imagens. Assim, o modelo perderia menos em termos de abstração e seria capaz de

recuperar informações muito mais relevantes (isso exige um sistema que utilize técnicas específicas,

cuja maioria pode ainda não existir ou não ser funcional). Exemplos desse tipo de sistemas são o

Visual SEEk, o VideoQ, (Virage e QBIC) (CHANG, 1997 apud WIVES, 2002, p. 35).

2.1.5.4. Bibliotecas Digitais

A biblioteca digital não possui uma dimensão física, utilizando toda a infra-estrutura de

comunicação existente (Internet, por exemplo) para que funcione. Decorrente disso, uma biblioteca

digital não necessita necessariamente conter o conteúdo das informações, mas sim, prover acesso

até elas (WIVES, 2002, p. 35).

A implementação desse trabalho faz uso do conceito de biblioteca digital em ambiente

WEB, constando de mecanismos para que professores e alunos do Colégio CAU cadastram e

busquem informações de qualquer computador. Este conteúdo está detalhado na seção 2.2,

Biblioteca Digital.

11

2.1.6. Técnicas de recuperação de informações textuais

Ferneda (2003, p. 20) cita que a grande maioria dos modelos de recuperação de informação

é de natureza quantitativa, baseados em disciplinas como a lógica, a estatística e a teoria dos

conjuntos.

Um sistema de recuperação de informações textuais é um sistema desenvolvido para indexar

e recuperar documentos do tipo textual, ou seja, documentos cujas informações estão descritas

através da linguagem natural (WIVES, 2002, p. 37). Este processo é possível através da seleção dos

termos mais relevantes.

Os termos são os atributos ou características de um documento. São eles que conseguem

distinguir um documento de outro. Decorrente disso, em um SRI textual as consultas do usuário são

descritas através de termos. O usuário deve escolher os termos mais adequados para caracterizar sua

necessidade de informação (CHEN, 1994 apud WIVES, 2002, p. 37).

A seguir são demonstradas técnicas de RI que influenciam diretamente na estrutura de índice

e armazenagem.

2.1.6.1. Indexação e normalização

O processo de representação ou catalogação dos documentos é a primeira etapa de um SRI.

Todo documento adicionado ao sistema deve ser analisado ou descrito para que possa ser

recuperado futuramente (WIVES, 2002, p. 49).

A próxima etapa é a construção do índice através de um processo de indexação. O índice,

permite que o sistema possa encontrar rapidamente um documento a partir de um conjunto de

termos descritos em uma consulta (ibidem).

O índice pode ser compreendido como uma espécie de filtro que é capaz de selecionar os

documentos relevantes e manter de fora os documentos irrelevantes, como exemplo na utilização de

técnicas de stopworks (LANCASTER, 1968 apud WIVES, 2002, p. 49).

No processo da indexação manual, a pessoa encarregada deve fazer a análise do conteúdo de

cada documento e identificar as palavras-chave que o caracteriza. Essas palavras, quando

adicionadas ao índice, passam a ser chamada de termos de índice (WIVES, 2002, p. 49).

12

Neste processo existe o problema de diferença de vocabulário. O documento pode ser

indexado por termos diferentes que são correspondentes ao vocabulário utilizado em cada área.

Nesse caso, geralmente, há um conjunto de termos predefinidos e específicos para cada assunto da

área em questão. Podendo ser indexado um texto com termos diferentes dependendo da área. A

pessoa encarregada de indexar os documentos deve identificar a que assunto cada um deles pertence

e utilizar então os termos adequados. Essas técnicas, denominada vocabulário controlado

(LANCASTER, 1968 apud WIVES, 2002, p. 49). Nesse caso, recomenda-se que o SRI utilize todas

as palavras possíveis de um documento como termos de índice e ofereça ao usuário ferramentas de

apoio na elaboração de consultas capazes de auxiliá-lo na escolha dos termos mais adequados

(WIVES, 2002, p. 49).

O objetivo da indexação é identificar e construir pontos de acesso para um documento. O

SRI pode permitir o relacionamento de termos durante o processo de indexação ou depois dele,

durante a consulta (ibidem).

Os índices possuem também o fator exaustividade que mede a quantidade de assuntos

distintos que um índice é capaz de reconhecer. Quanto maior a exaustividade, maior a abrangência e

menor a precisão. Quanto mais específico for um índice, maior a precisão e menor a abrangência.

Esses dois fatores podem ser manipulados por uma indexação pré-coordenada, e é possível

encontrar um nível de equilíbrio para os dois em uma população fechada de usuários

(LANCASTER, 1968 apud WIVES, 2002 p. 49).

O processo de indexação pode ser realizado manualmente ou automaticamente. O processo

manual de elaboração de índices é muito abordado pela área da biblioteconomia. Sua vantagem está

na utilização de indexador humano e sua capacidade humana em julgar relevância e categorizar os

documentos. Na área da computação os índices são criados pelo processo automatizado, sua

vantagem é permitir uma cobertura mais ampla e rápida (WIVES, 2002, p. 49; FERNEDA, 2003, p.

96).

2.1.6.2. Indexação manual

Conforme Ferneda (2003, p. 97), a indexação manual especifica uma hierarquia de assuntos,

similar às classificações encontradas em uma biblioteca tradicional. Dividindo em categorias e sub-

categorias. O sistema deve permitir que um documento tenha mais de um índice, pois cada

documento pode conter mais de um assunto.

13

Um exemplo de mecanismo de busca que utiliza a indexação manualmente é o Yahoo

(2005). O autor de uma página Web pode cadastrar a URL de sua página associando a ela uma ou

mais categorias que descrevem o assunto tratado na página, conforme na Figura 3 (FERNEDA,

2003, p. 98). Este mecanismo tem como desvantagem a dependência de usuários para fazer a

classificação, assim sempre estando incompleta. Por outro lado, tem a vantagem da consulta ser

precisa, pois o usuário só recebe a consulta da categoria escolhida.

Figura 3. Página Yahoo - Referente a categoria Biblioteca Fonte: Adaptado de Ferneda (2003, p. 98).

2.1.6.3. Indexação automática

O processo de indexação automática busca identificar palavras relevantes nos documentos

de uma coleção de documentos e armazená-las em uma estrutura de índice (WIVES, 2002, p. 50).

As fases normalmente encontradas nesse processo, são atribuídas as tarefas de programas. No caso

de um ambiente Web são chamados de spiders (aranha) ou ainda robôs, crawlers ou worms, que

iniciam a sua execução a partir de uma lista inicial de URLs (FERNEDA, 2003, p. 99-100).

Os programas fazem a identificação de termos (simples ou compostos), a remoção de

stopwords (palavras irrelevantes), à normalização morfológica (stemming) e a seleção de termos.

Para cada uma dessas etapas existem diversas técnicas conforme Figura 4. Dependendo da situação,

14

a ordem de aplicação dessas etapas pode variar ou alguma delas pode não ser utilizada (RILOFF,

1995 apud WIVES, 2002, p. 51).

Figura 4. Página Yahoo - Processo de indexação automático Fonte: Adaptado de Wives (2002, p. 51).

Para os sistemas de mecanismos de busca que utilizam a indexação automática, tem-se como

exemplo os sites AltaVista (2005) e o Google (2005) eles indexam automaticamente as páginas da

Web (FERNEDA, 2003, p. 99-100). Sendo este processo dividido em duas etapas:

1. Seleção de endereços (URLs) de páginas; e

2. Indexação das páginas, gerando para cada uma um conjunto de termos de indexação.

Os programas de seleção de URLs, utilizam as tags do HTML para poderem se orientar na

análise do documento. Por exemplo, utilizando a expressão regular “\<a href=\"(.)*\"”. Obtém-se

todos os link’s encontrados em um arquivo. Ao analisar o arquivo HTML representado na Figura 5,

têm-se os seguintes endereços "www.univali.br" e "www.google.com". Para melhorar o

entendimento de um analisador com toda a sua estrutura pode ser visto um exemplo no apêndice B.

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>Untitled Document</title> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> </head> <body> <a href="www.univali.br">universidade</a> <a href="www.google.com">meta busca </a> </body> </html>

Figura 5. Arquivo HTML com demonstração de endereços de internet

15

2.1.6.4. Identificação de termos

Esta etapa consiste na aplicação de um analisador léxico que identifique as palavras

presentes nos documentos, ignorando os símbolos, espaço e caracteres de controle de arquivo ou de

formatação. Sendo como uma seqüência de caracteres alfanuméricos, contíguos e sem espaços. As

palavras identificadas nesta etapa devem ser padronizadas para maiúsculas ou minúsculas

(SANTOS, 2002, p. 7-9; WIVES, 2002, p. 51).

O analisador léxico tem a função de identificação, normalização e padronização de um

documento. Por exemplo, o analisador léxico utiliza a expressão regular, “\>([^>])*\<” para

identificação de termos representado na Figura 6.

//Documento original <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>Untitled Document</title> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> </head> <body> <a href="www.univali.br">universidade</a> <a href="www.google.com">meta busca </a> </body> </html>

Figura 6. Demonstração do analisador léxico

Nesta etapa, pode ser utilizado um dicionário a fim de fazer a validação das palavras e sua

existência e corrigir possíveis erros ortográficos (dictionar lookup). Um dicionário de sinônimos

pode auxiliar na normalização do vocabulário, caso deseje-se trabalhar com um vocabulário

controlado (SALTON, 1983 apud WIVES, 2002, p. 52).

Há diversas técnicas aplicadas no momento da seleção de termos, sendo elas a passagem de

todos os caracteres para a forma maiúscula (ou minúscula); a substituição de múltiplos espaços e

tabulações por um único espaço; a padronização de datas e números, bem como a eliminação de

hífens. Se uma técnica for adotada, ela também deve ser aplicada na consulta do usuário (WIVES,

2002, p. 52).

16

2.1.6.5. Identificação de termos compostos

Alguns termos são compostos de duas ou mais palavras, a fim de expressar um único termo.

Por exemplo, banco de dados, sistema operacional. Quando isso ocorre, essas palavras não podem

ser separadas quando forem indexadas.

Conforme Wives, (2002, p. 53) existem basicamente duas formas de identificação de

expressões. A primeira é feita com base na identificação de termos que ocorrem com freqüência em

uma coleção de documentos. A segunda, consiste na utilização de um dicionário de expressões que

indique quais palavras devem ser combinadas.

A utilização dessas técnicas torna a busca mais precisa, já que os termos compostos

costumam aparecer em um número menor de documentos, tornando a consulta menos abrangente.

Porém, deve ser armazenado no índice, o termo composto de formas combinadas e separadas, a fim

de não limitar a consulta do usuário (WIVES,2002, p. 53).

Caso não sejam aplicadas as técnicas de identificação de termos compostos, o sistema deve

permitir ao usuário, especificar em sua consulta a informação representada por termo composto.

Isso pode ser feito indicando que dois ou mais termos devem aparecer no mesmo documento. Em

alguns sistemas é possível especificar a distância máxima que esses termos devem ser encontrados,

definindo quantas palavras pode estar entre os termos (SALTON, 1983 apud WIVES, 2002, p. 53).

RILOFF (1995 apud FERNEDA, 2003, p. 86) cita um problema da utilização de termos

compostos juntamente com técnicas comuns de recuperação de informação. Como a utilização de

stopwords e a normalização das variações lingüísticas dos termos não permitem a análise de termos

como por exemplo, “morto a tiros”, pois a técnica de stopwords retira o termo “a” e a normalização

retira o “s” da palavra “tiros” retornando o termo para sua forma singular. Isso torna a pesquisa

imprecisa, por buscar os termos “morto tiro”, podendo retornar documentos não necessários ao

usuário.

2.1.6.6. Remoção de stopwords

Algumas palavras presentes em um documento textual são utilizadas com o intuito de

conectar as frases, não deverão ser adicionadas a estrutura de índice, devido sua baixa relevância ao

conteúdo em si. Essas palavras têm como finalidade auxiliar a estruturação da linguagem (tais como

conjunções e preposições) (WIVES, 2002, p. 52).

17

Documento normalizado Documento sem stopwords

...na maioria das vezes os documentos retornados pelas ferramentas de recuperação de informações evolvem um contexto mais amplo fazendo com que o usuário tenha que garimpar ou seja especificar ou filtrar estes documentos e que demanda tempo e conhecimento a fim de obter a informação que ele realmente necessita...

... maioria vezes documentos retornados ferramentas recuperação informações evolvem contexto fazendo usuário garimpar especificar filtrar documentos demanda tempo conhecimento fim informação realmente necessita...

Stopwords são palavras que ocorrem freqüentemente em textos, conforme demonstrado na

Figura 7. Uma vez que elas são muito comuns, sua presença não contribui significativamente para a

determinação do conteúdo do documento (SANTOS, 2002, p. 10).

Figura 7. Identificação de stopwords Fonte: Adaptado de Wives (2002, p. 51).

Neste trabalho, utilizar-se-á uma lista de stopwords, colocada no apêndice D, cujos

elementos são adicionados manualmente. O algoritmo varre todo o texto em questão à procura das

palavras contidas nesta lista, removendo-as ao encontrá-las.

2.1.6.7. Normalização morfológica

Durante o processo de indexação, torna-se interessante eliminar as variações morfológicas

de uma palavra. As variações morfológicas são eliminadas através da identificação e retirada dos

prefixos e os sufixos, resultando os radicais, que são adicionados à estrutura de índice. Essa técnica

de identificação de radicais é denominada stemming, que em inglês significa reduzir uma palavra ao

seu radical (ou raiz) (FRAKES, 1992 apud WIVES, 2002, p. 53).

Este processo de stemming pode resultar palavras de categorias diferentes. Por exemplo,

“construção” e construiremos seriam reduzidos a “constru”, no processo de stemming (FERNEDA

2003, p. 86). As características de gênero, número e grau das palavras são também eliminadas nesta

etapa. Isso significa que várias palavras acabam sendo mapeadas para um único termo, o que

aumenta a abrangência das consultas (WIVES, 2002, p. 53).

Com essa técnica o usuário não necessita preocupar-se com a forma ortográfica com a qual

uma palavra foi escrita no texto original. Assim, uma idéia, independente de ter sido escrita através

18

de seu substantivo, adjetivo ou verbo, é identificada por um mesmo (e único) radical. Essa aparente

vantagem ocasiona uma diminuição na precisão, já que o usuário não consegue mais procurar por

uma palavra específica (WIVES, 2002, p. 53).

Existem várias formas de identificação do radical de palavras (FRAKES, 1992 apud

WIVES, 2002 p. 53-54). Uma delas consiste na definição de uma lista de prefixos e ou sufixos

comumente encontrados no vocabulário de uma língua. Toda vez que um desses prefixos ou sufixos

for encontrado, ele é retirado do termo. Um dos problemas dessa técnica é que, dependendo da

língua ou do contexto, o padrão encontrado nem sempre corresponde a um prefixo ou sufixo, pois

ele pode fazer parte do radical da palavra (o sufixo “ual” deve ser retirado de “fatual”, mas não de

“igual”). Outra solução consiste na utilização de um dicionário morfológico onde o radical de cada

palavra poderia ser identificado corretamente (KOWALSKI, 1997 apud WIVES, 2002, p. 54).

2.1.7. Estruturas de armazenamento

A estrutura de arquivos invertidos, com as árvores TRIE e PAT são as estruturas mais

comuns e eficazes para a área de recuperação de informações textuais. Baseiam-se em caracteres e

em sua ordenação alfabética (WIVES, 2002, p. 54). A seguir apresenta-se o significado de um

arquivo invertido e na seção seguinte um método de assinatura que utiliza a estrutura baseada em

acesso direto (hash).

2.1.7.1. Arquivos invertidos

A denominação “arquivo invertido” aplica-se ao tipo de índice que aponta os documentos

que contém os diversos termos de um texto. Seguindo essa definição, um arquivo invertido

apresenta, para cada termo do dicionário, uma lista invertida, isto é, um conjunto de números de

documentos contendo o termo, demonstrada na Figura 8 (NEUBERT, 2000). O arquivo invertido é

uma lista (ou índice) ordenada por chaves, onde cada chave contém uma ligação para os

documentos que a contém. Basicamente, a estrutura permite que um único termo aponte para vários

documentos. Este é o tipo de índice mais utilizado em sistemas de bibliotecas (WIVES, 1997;

MOREIRA, 2005).

19

Figura 8. Estrutura de uma lista invertida Fonte: Wives (1997, p. 59).

Essa estruturação de arquivo invertido é vantajosa na questão do aumento da eficiência de

busca em arquivos de texto, mas por outro lado o espaço de armazenamento do índice pode ser

cerca de 10 a 100 vezes maior que o tamanho do conteúdo do documento (MOREIRA, 2005).

Geralmente é composta por três arquivos: o dicionário ou lista de termos, a lista de inversão

e os documentos. A entrada para o índice é o dicionário, uma lista que contém todos os termos de

uma coleção de documentos indexados. Ao ser localizada a palavra no dicionário, identifica-se sua

lista invertida de documentos corresponde (WIVES, 2002, p. 59).

O dicionário pode ser implementado em alguma estrutura mais eficiente, tal como uma

TRIE ou árvore-B, e pode conter qualquer tipo de informação necessária ao sistema, tal como a

freqüência ou relevância das palavras nos documentos (WIVES, 2002, p. 59).

2.1.7.2. Método da assinatura

O objetivo do método da assinatura é prover um teste que indique rapidamente quais são os

arquivos mais relevantes à consulta do usuário. Os termos que passam pelo teste podem então ser

passados diretamente para o usuário, ou ainda, serem avaliados por algum outro método de

filtragem que identifique os documentos mais relevantes (WIVES, 2002, p. 60).

20

Os termos são mapeados para um código com tamanho prefixado de bits, sendo este a

assinatura. Esse código é estabelecido por uma função hash (KOWALSKI, 1997 apud WIVES,

2002, p. 61). Uma função de hash, é uma operação unidirecional que transforma uma string de

dados de qualquer tamanho em um valor de tamanho menor e fixo. Nenhuma combinação de duas

strings de dados produzirá o mesmo valor de hash (SYMANTEC, 2005).

A Tabela 1 demonstra que existem diversos métodos de assinatura, sendo comumente

usados o MD5 (Message Digest 5) e o SHA (Secure Hash Algorithm), muito utilizados nos scripts

PHP de criptografias, sendo que ambas são unidirecionais.

Tabela 1. Algoritmos Hash

Algoritmos Tamanho Inventor Adler-32 32 bits CRC-16 16 bits CRC-16-CCITT 16 bits CRC-16-XMODEM 16 bits CRC-32 32 bits CRC-64 64 bits eDonkey-2000 128 bits ELF-32 32 bits FCS-16 16 bits FCS-32 32 bits FNV (FNV-32/FNV-64) 32/64 bits GHash (GHash-32-3, GHash-32-5) 32 bits

GOST-Hash 256 bits

HAVAL (3/4/5 passes, 256 bits) 256 bits Zheng, Pieprzyk, Seberry

MD2 128 bits Rivest MD4 128 bits Rivest MD5 128 bits Rivest RIPEMD-128/RIPEMD-160 128/160 bits SHA-1 160 bits NIST/NSA SHA-2 (SHA256/SHA384/SHA512) 256/384/512 bits NIST/NSA

SizeHash-64 64 bits - Tiger 192 bits Anderson, Biham XUM-32 32 bits

Fonte: Adaptado de Sourceforge (2005).

O MD5 é uma função de hash desenvolvida por Ron Rivest do MIT (Massachusetts Institute

of Tecnology), que produz um valor hash de 32 caracteres, visto na Figura 9 (CERT-RS, 1997).

21

O SHA é o Algoritmo de Hash seguro, uma função de hash inventado no NSA. Ele produz

um valor de hash de 40 caracteres, visto na Figura 9 (CERT-RS, 1997).

Figura 9. Método de assinatura

O Método de assinatura tem como característica básica que o endereço de cada termo é

determinado em função do valor de sua chave primária. Este é o meio mais rápido de acesso aos

termos, basta ter o valor da chave primária do termo e calcular o endereço pela função hash. (LOH,

1999).

Os termos da consulta do usuário também devem ser mapeados para a assinatura

correspondente. A busca é realizada através de comparação direta entre os bits da assinatura da

consulta e as assinaturas de documentos dos bits especificados pelas palavras da consulta (através

de uma leitura linear no arquivo de assinaturas) (WIVES, 2002, p. 61).

2.1.8. Busca e visualização

A necessidade de informação do usuário é representada através de sua expressão de busca,

que pode ser especificada em linguagem natural ou através de uma linguagem artificial, e deve

resultar na recuperação dos documentos que possibilite a verificação de cada um deles a fim de

selecionar os que são úteis (FERNEDA, 2003, p. 18).

O usuário ao buscar informações, interage com o SRI. O sistema mapeia a necessidade da

informação desejada pelo usuário para uma linguagem abstrata, na linguagem utilizada pelo SRI, a

fim de descrevê-la. É através dela que o SRI vai poder identificar os termos de que o usuário

necessita e analisar se esses termos são relevantes para o usuário (WIVES, 2002, p. 66). Porém,

mesmo utilizando uma expressão de busca, a representação de um documento não significa que o

Mensagem

biblioteca digital

Função Hash MD5

788155fd0f2e77edd5d76793f95a34b8 acc28d4112435748590e1a25452bc66b65de22ce

Função Hash SHA

22

documento seja relevante para a necessidade do usuário. O termo presente na representação do

documento pode estar em um contexto diferente à necessidade do usuário ou ser muito antigo cuja

sua informação se tornou irrelevante (ibidem).

A consulta é o formalismo com o qual o usuário comunica-se com o sistema. É nela que o

usuário especifica sua necessidade de informação, definindo a que assuntos os documentos devem

pertencer quando retornados. Devido a isso, ela deve ser especificada corretamente para que os

documentos relevantes sejam retornados (WIVES, 2002, p. 66-67).

A visualização das consultas é dada em uma lista de documentos, que deve estar organizada

de alguma forma. Geralmente essa lista é ordenada em uma espécie de ranking onde os documentos

mais relevantes são mostrados primeiro. O SRI pode permitir que o usuário ordene os documentos

da lista de acordo com algum critério (título, autor, data, conteúdo ou resumo) a fim de facilitar a

localização e análise dos documentos mais relevantes (WIVES, 2002, p. 67-68).

Além de retornar os documentos relevantes, torna-se necessário que o SRI informe para o

usuário o porquê dos mesmos terem sido recuperados. Uma forma de fazer isso é selecionar os

trechos do documento que contenham as palavras da consulta e mostrá-los para o usuário (WIVES,

2002, p. 68-69).

2.2. BIBLIOTECA DIGITAL

Com a invenção da escrita surgiu à necessidade de serem guardados documentos de uma

forma segura e organizada, criando a definição de biblioteca tradicional. Nela a maioria dos itens é

constituída de documentos em papel. Antes do aparecimento da imprensa, em 1440, os acervos

eram formados por outros tipos de materiais (como o tablete de argila, o papiro e o pergaminho).

Uma característica da biblioteca tradicional é que tanto a coleção como o seu catálogo utiliza o

papel como meio de registro da informação (CUNHA, 1999, p. 258).

Com o avanço das tecnologias da informação, dos meios de comunicação e da internet, as

pessoas são “inundadas” por uma “avalanche” de informações, tornando difícil o processo de

armazenando e recuperação das informações. Para auxiliar neste processo, a biblioteca digital

oferece ao usuário uma seleção, organização, avaliação das informações e estratégias de busca para

explorar a imensa coleção de dados e orientar o seu usuário na montagem do seu conhecimento

(ALVES; MENDES, 2000).

23

Com as mudanças da transmissão da informação, necessitou também alterar o modelo da

biblioteca. A Biblioteca Tradicional, baseada na posse da informação em uma estrutura física real,

para a Biblioteca Digital, cuja importância é facilitar o acesso à informação disponível em meios

digitais. Há inúmeras definições para Biblioteca Digital. Os termos, mais freqüentemente usados

são “Bibliotecas Virtuais”, “Bibliotecas Eletrônicas” e “Bibliotecas Sem Paredes” (ibidem).

A Biblioteca do Futuro é sem paredes, por possibilitar o acesso à distância a seus catálogos, sem a necessidade de se estar fisicamente nela. É eletrônica, porque seu acervo, catálogos e serviços são desenvolvidos com suporte eletrônico. E é virtual, porque é potencialmente capaz de materializar-se via ferramentas que a moderna tecnologia da informação e de redes coloca à disposição de seus organizadores e usuários (ALVES e MENDES, 2000).

Neste projeto, segue-se as definições da ASIS (American Society for Information Science),

citado por Andrade e Baraúna (2002), que define as Bibliotecas Virtuais como “sistemas nos quais

os recursos são distribuídos via rede, independentemente de sua localização física num determinado

local” ao passo que as Biblioteca Digitais “são serviços de informação cujos conteúdos estão

originalmente em forma eletrônica e são acessados local ou remotamente por meio de redes de

comunicação”.

A biblioteca digital tem um contexto mais amplo do que um depositório de livros e revistas,

entre outros. Tem como característica básica, manter um conjunto mais diversificado de

informações, que abrange desde as bibliografias básicas das disciplinas até o material de aula dos

professores, passando por fotos, vídeos e sons (GONZALEZ; LIMA, 2001, p. 101-102).

Na criação de uma biblioteca digital, é necessária a construção de uma cultura que vai desde

a definição de uma política de trabalho, para digitalização de documentos, até o modelo completo

de uma biblioteca digital (ibidem).

A biblioteca é uma componente integrante da construção do conhecimento. Através de um

processo de adaptação, onde o sujeito assimila a nova informação através de uma abstração do

objeto do conhecimento já existente. Portanto, o conhecimento não é cumulativo e linear, isto é, o

sujeito precisa ter alguns esquemas de informação já organizados para fazer classificações,

generalizar e relacionar a nova informação. Essas habilidades tornam-se importantes na sociedade

contemporânea devido à necessidade de formação de homens autônomos. Uma abordagem

construtivista é a mais adequada ao ambiente de biblioteca digital, pois desenvolve pessoas com

habilidades e competências para localizar a informação no espaço virtual. Um espaço onde os

24

estudantes precisam aprender a identificar o que é importante para que possam construir o seu

conhecimento (ALVES; MENDES, 2000).

Nessa construção do conhecimento a biblioteca digital deve proporcionar duas linhas

distintas: (i) promover aumento no volume do acervo digital de apoio, que atenda ao professores

que se propõem a elaborar seu próprio material junto as seus alunos; (II) atender aos professores

que querem apenas utilizar este tipo de material de apoio, sem a necessidade de criá-los

(GONZALEZ; POHLMANN FILHO; BORGES, 2000).

2.2.1.1. Informática educacional

Numa sociedade virtual que cresce a cada dia, é necessário propor novos meios de se valer

dos mesmos recursos sofisticados que a tecnologia oferece e aplicá-los na educação (SANTOS,

1997, p. 80).

A informática educacional traz como perspectiva uma utilização de ferramentas digitais que

auxilie no processo pedagógico, caracterizando-se pelo uso do computador como ferramenta para

resolução de problemas ou também chamados projetos. Os projetos são atividades desenvolvidas,

onde grupos de alunos são orientados a desenvolver determinado tema. Podem usar todos os

recursos que tem direito e acesso, consultar bancos de dados, rede internet, troca de informações e

participação de listas de discussões, entre outros. Neste processo, não há uma participação efetiva

de um especialista, ao se desenvolver um determinado tema, sendo apenas auxiliado pelo professor

(BORGES NETO, 1999, p. 1-3).

O uso dos computadores como ferramenta pedagógica em salas de aula, abrange muito mais

do que a simples implantação de máquinas e adequação de programas a conteúdos ou metodologias.

Para utilizar as tecnologias da informação e comunicação de maneira crítica e produtiva deve haver

uma nova leitura do processo de comunicação e de educação numa sociedade em rede. Deve-se

buscar compreender esse novo tempo em que estes processos acontecem e não apenas aprender a

aplicar recursos multimídia na educação (GALLO, 2002).

A informática funciona como agente de propagação de conhecimento, colocando-se a

serviço da educação. Ela funciona como um meio didático, na medida em que pode oferecer

representação específica de um saber, facilidades de manuseio, feedback e uma possibilidade para

25

acompanhar, à distância, a construção de um procedimento realizado pelo aluno, observando suas

incertezas e hesitações até que ele encontre o seu caminho (BORGES NETO, 1999, p. 6).

2.2.1.2. Biblioteca no ensino

A prática normal e correta nas instituições de ensino, é fornecer para cada disciplina uma

lista bibliográfica, sendo que esse material deve ser fácil. É de fundamental importância o papel da

biblioteca estabelecida fisicamente na própria instituição de ensino. Porém, indivíduos residindo em

locais pouco desenvolvidos, com bibliotecas e livrarias precárias ou mesmo inexistentes não têm

acesso a um acervo adequado e necessário para o correto desenvolvimento das disciplinas e

aquisição do seu conhecimento. Para suprir está necessidade, além dos esforços dos educadores

para desenvolver material didático, as novas tecnologias de informação tornam possíveis a

disponibilização de acervo das diversas bibliotecas digitais, utilizando como meio a internet

(GONZALEZ; POHLMANN FILHO; BORGES, 2001, p. 101).

Na utilização de bibliotecas digitais permite a expansão dos horizontes do ensino e da

pesquisa, tornando praticamente ilimitada a liberdade dos educadores para indicar material

bibliográfico, sem a preocupação com conceitos como lugar e quantidade disponível (GONZALEZ;

POHLMANN FILHO; BORGES, 2000).

2.2.1.3. Informática na sala de aula

A questão da tecnologia aplicada ao ensino é uma discussão que coloca as pessoas ligadas à

educação em um dilema, ora existe tecnologia e os professores não sabem lidar com ela, ora os

professores sabem lidar, mas falta o suporte necessário para que se desenvolva, a contento, o seu

trabalho com o auxílio da tecnologia (SANTOS, 1997, p. 75).

No modelo tradicional preenche-se uma sala de computadores, chamando de laboratório de

informática, contrata-se um especialista em informática, às vezes com alguma formação em

educação, para gerenciar o laboratório. Não considerando que o professor de sala de aula, aquele

que é o especialista, o professor de matemática, o de ciências, o de linguagem, o que eles podem

obter de ganhos em sua sala de aula com a introdução da informática. Sendo que o professor

continua na sua sala de aula, tradicional, sem saber como transformar essa nova ferramenta de

informação em atividade de ensino e aprendizagem. A única interação entre a sala de aula e o

laboratório de informática, e a solicitação do professor da disciplina, para que o responsável do

26

laboratório prepare alguma atividade para os seus alunos sobre certo conteúdo (BORGES NETO,

1999, p. 3-4).

A introdução de computadores na escola pode provocar transformações, mas essa passa

necessariamente, pela (trans)formação daqueles que vão utilizar em seu ambiente profissional, no

caso os professores, que são os principais agentes da inovação educacional. Sem eles nenhuma

mudança persiste, nenhuma transformação é possível (MOURA, 2005).

Em uma biblioteca digital, podem ser disponibilizadas na mesma plataforma, apostilas,

livros, vídeos, sons e assim por diante. Permitindo ao professor e aluno não só buscar a informação

de forma integrada, como também produzir novos documentos. O professor deve incentivar e

monitorar as atividades de produção desses novos documentos, pois poderá ser disponibilizado para

pesquisas futuras, ao ser inserido este novo documento no acervo.

2.2.2. Benefícios da implantação de uma Biblioteca Digital

As bibliotecas digitais, além das atividades oferecidas pelas bibliotecas tradicionais, têm

características próprias, conseqüências da opção digital, que possibilitam a otimização do uso das

tecnologias da informação agregando valores aos serviços oferecidos (CRUZ, 2004).

A implantação da biblioteca digital trará benefícios para o processo de ensino do CAU,

possibilitando o acesso à informação dos demais alunos e professores. Segundo Cruz (2004), entre

os principais benefícios destacam-se:

I. Prover o acesso às informações a qualquer hora e a partir de qualquer lugar,

possibilitando o uso simultâneo, por várias pessoas do mesmo objeto digital;

II. Prover o acesso às coleções de informações multimídia, construídas com base em

texto;

III. Suporte de forma amigável ao usuário, através da personalização do acesso à

informação e a eliminação do excesso de informação;

IV. Divulgação da Instituição no cenário nacional de maneira a possibilitar uma maior

projeção da mesma;

V. Maior visibilidade e avaliação pelos pares da produção cientifica e dos grupos de

pesquisa da Instituição;

27

VI. Recuperação rápida e eficiente da informação;

VII. Maior cuidado com a qualidade do material devido à exposição na Internet – avaliação

continuada de diferentes públicos;

VIII. Manutenção de todas as versões dos materiais produzidos pelo curso e

disponibilizados para os alunos;

IX. Reunião de todos os materiais digitais disponibilizados, facilitando a captura dos

mesmos pelos alunos e professores;

X. Controle dos acessos aos objetos digitais fornecendo dados confiáveis para elaboração

de relatórios;

XI. Registro da memória da produção institucional; e

XII. Preservação do material em formato digital e impresso, uma vez que o desgaste

decorrente do manuseio e das condições climáticas deixará de existir.

2.2.3. Planejamento de uma Biblioteca Digital

Com base nas definições apresentadas por Marchiori (1997) e Cruz (2004), são identificadas

sete etapas que devem ser consideradas no planejadas da biblioteca digital, sendo elas:

1. Aquisição dos documentos

O processo de criação e captura dos documentos digitais envolve os processos de análise e

definição dos objetos a serem disponibilizados na biblioteca digital. Compreende a disponibilização

de um documento no formato digital e a transformação de um documento de formato não-digital

para o formato digital, utilizando ferramentas de edição de textos.

Segundo Dias (2002, p. 21), há disponível no mercado uma variedade de ferramentas

voltadas para a elaboração de textos, desde processadores de textos bastante populares como o

Microsoft Word até ferramentas mais simples para a elaboração de páginas HTML, tais como o

Composer, que faz parte do navegador Netscape.

No final desta etapa, têm-se a na transformação de documentos já capturados no formato

digital, para um formato padrão único, assim podendo ser indexado na base de dados.

28

2. Preservação e manutenção dos documentos

O armazenamento dos objetos digitais envolve sempre grandes e crescentes quantidades de

informação que devem ser preservadas indefinidamente. Para garantir a integridade dos documentos

e seus respectivos conteúdos é necessário: (i) definir a forma de armazenamento; (iii) gerenciar a

distribuição dos objetos digitais nos servidores; (iii) providenciar os backup, e (iv) garantir a

capacidade de incorporar novas tecnologias.

3. Recuperação da informação

Para a indexação dos documentos digitais é necessário utilizar-se uma padronização dos

termos ao inserir na base de dados que permita a recuperação e o acessar aos documentos. Para isso

deve-se: (i) implementar ferramentas que possibilitem além da busca de campos tradicionais como

autor, título, assunto, palavras-chaves, também a pesquisa no conteúdo dos documentos digitais, tais

como no texto completo e no conteúdo das imagens, entre outros; (ii) implementar ferramenta de

busca que possibilite a utilização da lógica booleana, linguagem natural, e (iii) técnicas de

inteligência artificial

4. Distribuição dos documentos

A distribuição dos documentos digitais necessita de uma infra-estrutura física de

comunicação que possibilite o acesso a todo conteúdo armazenado na base de dados, em tempo

integral.

5. Compartilhamento dos documentos

Prover mecanismos que possibilita interligar as coleções de documentos entre bibliotecas, de

diversas instituições, através de documentos e comunicação padronizados.

6. Uso da biblioteca digital

Deve ser oferecido um treinamento para a utilização da biblioteca digital, que visa otimizar a

busca dos documentos. O treinamento deverá ser oferecido primeiramente para os tutores de sala e

em seguida para os alunos do curso. Mas deverá ter uma ajuda on-line para que o usuário possa por

si próprio apreender a utilizar a ferramenta.

29

7. Interação social

Estabelecer inicialmente o procedimento a ser adotado junto aos autores (professores

especialistas, pesquisadores e professores da Instituição), a fim de garantir que os documentos

sejam disponibilizados na biblioteca digital. Para isso faz-se necessário desencadear junto à

Assessoria Jurídica da Instituição uma discussão ampla, com a participação dos diferentes

segmentos envolvidos, para a elaboração de um documento com as definições dos direitos autorais,

visando à preservação tanto da autoria quanto da instituição.

2.2.4. Os direitos autorais

Um dos problemas mais discutidos pelos desenvolvedores e pesquisadores das bibliotecas

digitais é a questão dos direitos autorais. Sem dificuldade nenhuma, um leitor/internauta pode

colocar uma obra, de sua autoria ou de terceiros, disponível a milhares de pessoas (DINIZ, 2005).

Assim criando uma relutância por parte dos autores em disponibilizar sua obra em um ambiente

com muitas facilidades para leitura, cópia e impressão das obras.

Na criação de um acervo digital, deve-se considerar à aquisição das obras digitais e o

pagamento dos direitos autorais. Deve-se mudar o paradigma de aquisição dos exemplares da obras,

para aquisição de número de licenças da obra digital. Isto causa profunda transformação na

negociação dos direitos autorais, pois o objetivo dos autores e editores deixa de ser o de “vender um

exemplar da obra” e passa a negociar um contrato de distribuição de um único exemplar digital e

suas licenças de uso.

É difícil respeitar a legislação de direito autoral com material impresso e as copiadoras, esse

controle se torna praticamente impossível com a informação digital. Este é um dos fatores por que a

maioria das bibliotecas trabalha apenas com obras de domínio público (DINIZ, 2005).

2.2.5. Documentos digitais

O foco principal de uma biblioteca digital é o documento eletrônico ou documento digital,

sendo todo registro gerado ou recebido por uma entidade pública ou privada, no desempenho de

suas atividades, armazenado e disponibilizado ou não, através de sistemas computacionais

(SANT’ANNA, 2005).

30

O documento original, cujas informações tenham sido julgadas de valor permanente, deve

ser preservado pela organização que o criou, ou por alguma instituição arquivística que seja

responsável pela sua guarda permanente. Mas com o uso intenso de um documento durante um

longo período ele se torna inutilizável, devendo-se providenciar sua restauração ou seu descarte

(ibidem).

Na utilização do documento digital preservar o documento original, muitas vezes esse tem

valor histórico. Pois o usuário utiliza apenas uma copia digital. Mas uma questão importante a ser

levantada é a necessidades de preservação e garantia de autenticidade dos documentos digitais.

2.2.6. Preservação dos documentos

A preservação da informação deve ser considerada na implementação de uma biblioteca

digital. Apesar dos meios físicos de armazenamento (fita, cartucho digital, disco magnético e CD-

rom) comportar grande volume de informação, tem durabilidade em media de 10 a 20 anos. Os

meios de suporte tem uma constante obsolescência dos equipamentos e programas. Assim, à medida

que os sistemas computacionais são alterados, também os suportes que registram a informação

digital devem ser mudados (CUNHA, 1999, p. 265).

Deve-se garantir a geração de novos materiais, mantendo as informações atualizadas e

constantes no acervo. Esse investimento deve ser levado em consideração no momento de discutir

os direitos de uso e reuso dos objetos digitais, junto com a contratação de mão de obra técnica

especializada. Se não houver nenhum plano administrativo que cubra esses itens, nenhuma

manutenção do acervo em longo prazo será bem-sucedida (KEMPINAS, 2004, p. 5-8).

Uma característica importante do acervo é a capacidade de manter todas ou algumas

versões de um mesmo documento. Entretanto, em cada um deles será necessário acrescentar ou

apagar as hiperligações desses objetos. Esse problema poderá ser crucial num acervo jurídico, onde

a validade legal de direitos ou deveres deverá ser emanado a partir de um texto consolidado ou

aprovado por uma determinada autoridade (CUNHA, 1999, p. 265).

31

2.3. FERRAMENTAS SEMELHANTES

Existem inúmeras bibliotecas digitais que podem ou não estarem em ambiente Web, cada

qual tem um modelo e utilizam técnicas de recuperação de informação diferente.

A seguir são demonstradas características de duas bibliotecas digitais. Ambas têm como

foco de seu acervo de dissertação e estão em ambiente Web. A escolha dessas se deve por se

assemelhar com os requisitos a serem cumpridos neste trabalho, pois o sistema desenvolvido

proverá no seu acervo trabalhos desenvolvidos por professores e alunos do CAU. A seguir

demonstram-se alguns exemplos:

2.3.1. Biblioteca Digital de Teses e Dissertações da UFRGS – BDTD

Tem como objetivo divulgar a produção intelectual gerada no âmbito da UFRGS, tornando-a

acessível universalmente via internet. Seu desenvolvimento fui idealizado pela Biblioteca Central

em parceria com o Centro de Processamento de Dados, a Pró-Reitoria de Pesquisa e a Pró-Reitoria

Adjunta de Pós-Graduação da Universidade Federal do Rio Grande do Sul (OLIVEIRA et al, 2003).

Sendo uma biblioteca digital, tem a função de organizar, conservar, facilitar o acesso e o uso

de trabalho otimizado pelo advento da biblioteca digital, produto dos avanços da informática e das

telecomunicações associadas às tradicionais técnicas de tratamento da informação utilizadas nas

bibliotecas (ibidem).

Esta biblioteca utiliza um sistema de recuperação de informação bibliográfica, pois a

consulta pode ser feita apenas por campos, conforme Figura 10.

32

Figura 10. Mecanismo de busca BDTD - UFRGS Fonte: BDTD-UFRGS (2005).

A BDTD é formada por um conjunto de metadados capturados do Banco de Dados SABi

(Sistema de Automação das Bibliotecas) e está customizado a partir do sistema aberto Aleph

(Automated Library Expandable Program), conforme a Figura 11(OLIVEIRA, 2003).

Figura 11. Forma de acesso aos Metadados Fonte: Oliveira (2003).

33

2.3.2. Biblioteca Digital da UNICAMP

Este sistema tem como finalidade a publicação do conteúdo das teses e dissertações nas

bibliotecas digitais, tendo a Internet como um mecanismo de comunicação de alcance mundial,

instantâneo, interativo e multidirecional, possibilitando o acesso ilimitado e sem fronteiras a esse

importante repertório do conhecimento gerado (VICENTINI; BLANCO, 2005).

Tem como característica principal a utilização de um mecanismo de busca baseado em

índice. O indexador utilizado (software htdig) para o mecanismo de busca, pois mantém uma base

de dados própria otimizada para realizar as buscas. Essa característica garante a performance no

tempo de resposta quando da submissão de uma pesquisa, independentemente da quantidade de

documentos no banco digital. O sistema recupera palavras encontradas tanto nos campos indexados,

quanto no conteúdo do documento em PDF (ibidem). O sistema de busca pode ser visto na Figura

12, e o resultado na Figura 13.

Figura 12. Mecanismo de busca da biblioteca digital da UNICAMP Fonte: BD-UNICAMP (2005).

34

Figura 13. Resultado da busca da biblioteca digital da UNICAMP Fonte: BD-UNICAMP (2005).

Vicentini e Blanco (2005), demonstram na Tabela 2 uma análise dos indicadores de

qualidade identificados na Biblioteca Digital da Unicamp.

Tabela 2. Indicadores de qualidade

DESEMPENHO Variáveis Características

Armazenamento dos Documentos

Integridade do documento digital; Espaço em disco; Controle de vírus; Facilidade e rapidez na inserção; Dados de conteúdo e informações adicionais; Indexação dos arquivos; Integração de dados.

Mecanismo de Busca Grau de recuperação dos documentos. Controle de Acesso Registro de quem realiza visitas e downloads. Cadastro de Visitantes Identificação dos usuários que acessam as teses e dissertações.

Estatísticas Indicadores de downloads.

35

Tabela 2. Indicadores de qualidade de (Continuação)

CONFORMIDADE Variáveis Características

Atores Ações realizadas pelos personagens; Definição de quem faz o que?

Arquitetura da Informação

Grau de organização das informações.

Metadados Padrões para a descrição dos dados. Integração e interoperabilidade

Utilização de protocolo de comunicação e protocolo de coleta automática dos metadados (harvesting); Utilização de tecnologia de software livre.

DURABILIDADE Variáveis Características

Novas Implementações

Realização de upgrade de software e hardware.

Segurança Política de backup. Documentação do software e da metodologia.

Preservação do documento

Política de preservação do documento digital.

Fonte: Adaptado de Vicentini e Blanco (2005).

3. PROJETO

O projeto proposto e implementado neste trabalho tem como objetivo a criação de um

Sistema Biblioteca Digital, que irá proporcionar aos professores a armazenagem de documentos

digitais em sua base de dados. Permite aos usuários pesquisarem através do sistema de recuperação

de informação, sendo que esta pesquisa pode ser por termos relevantes encontrados nos

documentos, ou por campos tradicionais como título e autor entre outros. No sistema há um módulo

de apoio ao ensino, que auxilia o professor no uso do laboratório de informática no momento de

ministrar sua aula e permite definir um questionário para que o aluno possa responder.

O sistema foi desenvolvido na linguagem PHP utilizando banco de dados MYSQL. Estas

foram às ferramentas escolhidas por serem de conhecimento e por estarem disponíveis nos

servidores do CTTMAR.

3.1. REQUISITOS

3.1.1. Requisitos funcionais

Requisitos funcionais são as funções que o sistema realiza – ou seu comportamento perante

aos usuários. São os requisitos que o sistema deve contemplar. Segue abaixo os requisitos para o

sistema desenvolvido (Figura 14):

Figura 14. Requisitos funcionais

37

3.1.2. Requisitos não funcionais

Requisitos não funcionais são propriedades ou qualidades do sistema que podem especificar

os aspectos que quantificam um determinado comportamento. Segue abaixo os requisitos não

funcionais para o sistema desenvolvido:

3.1.2.1. Segurança

O sistema requer algum tipo de segurança para o usuário professor. É composto por

matrícula e senha, conforme Figura 15.

Figura 15. Requisitos de segurança

3.1.2.2. Confiabilidade

O sistema deve manter a integralidade dos documentos e relatórios, conforme Figura 16.

Figura 16. Requisitos de confiabilidade

38

3.1.2.3. Software e hardware

Descreve as características necessárias na implementação do sistema conforme Figura 17.

Figura 17. Requisitos de software e hardware

3.1.2.4. Interface

Descreve as características necessárias para desenvolvimento da interface, conforme a

Figura 18.

Figura 18. Requisitos de interface

39

3.2. DIAGRAMAS DE CASOS DE USO

Caso de uso é uma seqüência de ações executadas por um determinado processo que produz

um resultado para um determinado ator. Com a utilização dos casos de uso, o entendimento das

funções disponíveis para um determinado ator fica simples de se entender. Os cenários produzidos

para cada caso de uso constam no apêndice A. Segue os diagramas de casos de uso com as

funcionalidades do sistema desenvolvido:

3.2.1. Caso de uso do Sistema de Recuperação de Informação

Figura 19. Caso de Uso do Sistema de Recuperação de Informação

40

Tabela 3. Funcionalidades dos casos de uso – Sistema de Recuperação de Informação

Caso de Uso Descrição UC SRI 01-Mecanismo de Consulta do SRI

È a interface entre a consulta do usuário e a estrutura interna do sistema de recuperação de informação.

UC SRI 02-Envia Documentos para o SRI

Envia o documento para ser analisado pelo SRI, e assim ser incorporado no Acervo.

UC SRI 04-Efetua Login no sistema Válida a entrada do usuário no sistema. UC SRI 05-Gerência da tabela de Stopwords

Inclui e exclui os termos irrelevantes e adicionados na tabela de stopwords.

UC SRI 06-Exclui documentos do Acervo

Acessa a tabela de documentos no acervo, excluindo o documento será apagado as referencia ao mesmo.

UC SRI 07-Gerência o dicionário de Termos

Acessa a tabela de dicionários de termo, permite excluir o termo sendo estes adicionados na tabela de stopwords.

UC SRI 09-Aprova documentos enviados pelos Alunos

Lista os documentos enviados pelo aluno para o professor. Somente poderá ser aceito no acervo, se for aprovado pelo professor ou administrador.

3.2.2. Caso de uso do sistema de apoio ao ensino

Figura 20. Caso de Uso do sistema de apoio ao ensino

41

Tabela 4. Funcionalidades dos casos de uso – Apoio ao ensino

Caso de Uso Descrição UC AUL 01 - Cadastra questionário Permite ao professor, cadastrar um formulário de perguntas,

onde o aluno escolhe uma das alternativas. UC AUL 02 - Relatório de Desempenho

Lista todos os alunos da aula que responderam ao questionário, permitindo ao professor avaliar as respostas de cada aluno.

UC AUL 03 - Cadastra Aula Cadastra a aula a ser ministrada pelo professor. UC AUL 04 - Ministra aula Permite ao professor ministrar aula no laboratório de

informática, compartilhando um único documento entre diversas maquinas do laboratório.

UC AUL 05 - Assiste Aula

Permite ao aluno assistir uma aula, e acompanhar a explicação ou ler o documento que o professor está explicando verbalmente.

UC AUL 06 - Responde questionário Permite ao aluno responder ao questionário designado pelo professor para aquela aula.

UC AUL 07 - Cadastra Turma Cadastra dados da Turma (nome, professor responsável, ano).

UC AUL 08 - Cadastra Usuário Cadastra dados do Usuário (nome, email,nível de acesso) UC AUL 09 – Alterar a permissão do professor

A administradora troca à permissão dos dados cadastrais de um professor.

UC AUL 10 – Matricula em Turma Aluno solicita a matricula em uma turma, para que possa fazer parte da mesma.

UC AUL 11 – Lista Turma O professor visualiza os alunos matriculados nas turmas cujo é responsável. Aceitado as solicitações de matricula feita por alunos ou recusando/excluindo os alunos. Tem o objetivo de manter uma turma equivalente com a turma real.

42

3.3. DIAGRAMAS DE ATIVIDADES

Os diagramas de Atividades demonstram as atividades realizadas pelo sistema. Segue abaixo

alguns diagramas para o sistema desenvolvido.

3.3.1. Aula (Sincronismo)

Este diagrama representa a sincronização entre a máquina do professor e alunos no decorrer

da aula. Consta em manter através de uma variável no servidor a frase selecionada pelo professor,

onde a cada interação do professor sobre o texto atualiza esta variável. Simultaneamente, através de

um frame relay a máquina do usuário atualiza o texto constantemente, buscando no servidor a

variável e marcando no texto a frase selecionada.

Figura 21. Diagrama de Atividade – UC ENS 07 - Aula (Sincronismo)

43

3.3.2. Pacote - Sistema de Recuperação de Informação

3.3.2.1. Envio de Documento

Este diagrama representa as ativadas realizadas no momento da inserção de um documento

no acervo, conforme Figura 22.

Figura 22. Diagrama de Atividade – UC SRI 02 - Envio de Documento

1. Documento em Formato ASCII: Busca do disco o documento que irá passar pelas etapas

do SRI, com a finalidade de ser identificado os termos relevantes;

2. Remoção das tags: Está é a primeira etapa onde o SRI interage com o documento,

removendo os caracteres de formatação do documento;

3. Armazena o arquivo em Cache: Armazena no servidor o documento de forma integral,

no formato de TXT sem formatação;

4. Busca Arquivos não analisados em Cache: Seleciona os documentos que deverão ser

incluídos no acervo, sendo primeiro analisado pelo SRI;

5. Remoção Stopword: Remove todas as palavras que estejam contidas no corpo do

documento que estejam na tabela de stopword;

44

6. Seleciona Termos relevantes: Seleciona todas as palavras que sejam relevantes para

identificação do documento, eliminando as que se repetem;

7. Normalização: Etapa onde o SRI interage passando todas as palavras do documento para

o formato minúsculo e sem acentuação;

8. Termos que representam o documento: Obtêm todos as palavras que representarão o

documento.

9. Gerador de Hash CRC32: Nesta etapa a palavra é convertida para um número através do

método Hash CRC32;

10. Contador de palavras: obtém o número de ocorrência da palavra no documento;

11. Marcador de Posição: obtém a posição atual, da palavra em relação ao arquivo cache;

12. Grava todos os termos identificam o documento: etapa final cuja responsabilidade é

armazenar na estrutura de índice os termos relevantes encontrados no documento.

45

3.3.2.2. Consulta SRI

Este diagrama representa as ativadas realizadas no momento em que um usuário do sistema

(professor ou aluno), deseja recuperar algum documento que esteja armazenado no acervo,

conforme Figura 23.

Figura 23. Diagrama de Atividade – UC SRI 01 - Consulta SRI

1. Consulta do Usuário: O usuário passa através de linguagem natural quais são as

palavras que ele deseja localizar nos documentos do acervo;

2. Remoção Stopword: Remove todas as palavras que estejam contidas na consulta do

usuário que estejam na tabela de stopword;

3. Seleciona Termos relevantes: Seleciona todas as palavras que sejam relevantes para

identificação do documento, eliminando as que se repetem;

4. Normalização: Etapa onde o SRI interage passando todas as palavras da consulta

para o formato minúsculo e sem acentuação;

5. Consulta Documentos por Termos: Consulta os termos na estrutura de índice.

46

6. Busca em Cache os documentos: Busca os documentos obtidos através da consulta;

7. Pré-visualização: Visualiza fragmento do documento onde os termos procurados se

encontram;

8. Consulta por campos de identificação de documento: Busca os documentos através

de campos (autor,titulo, palavra-chave);

9. Ranking: Ordena todas as consultas e mostra uma lista de documentos para que o

usuário possa selecionar um documento;

10. Abre Documento: Usuário seleciona um documento que for de seu interesse e o

visualiza.

3.4. MODELO LÓGICO

O modelo lógico representa o conjunto de dados em cada estrutura de tabela, sobre qual são

realizadas as operações através de linguagens que manipulam a álgebra relacional. Todos os dados

do modelo lógico devem representar as características e necessidades do sistema.

Figura 24. Modelo lógico do Sistema de Biblioteca digital

48

3.4.1. Dicionário de dados

Tabela 5. Dicionário de dados

Campo Descrição tipo ALUNO_ACEITO Campo que verifica se um aluno foi aceito na turma BL ADM DESC Descrição dos níveis de segurança do sistema VA20 AUL_ABERTA Campo que define se o aluno já pode ter acesso aos dados

de uma aula BL

AUL_ABERTA Campo que marca se a aula já pode ser vista pela turma BL AUL_DATA Data que a aula será ministrada D AUL_DATA Data da aula da turma D AUL_DESCRIÇÃO Descrição do conteúdo ministrado na aula VA100 AUL_ID Identificador da aula, que permite varia turmas terem a

mesma aula. I

AUL_NOME Nome completo do aluno. VA100 BL_STP Campo que verifica se a palavra já foi vista pelo

administrador do sistema, pra verificar se não é uma stopwords

BL

DC_ID Identificador de registro I DIC HASH Número Hash que representa numericamente o termo,

obtido através de um método de assinatura CRC32. I

DIC PALAVRA A própria palavra que representa o termo. VA100 DIS ID Identificador da disciplina. I DIS NOME Nome da disciplina. VA100 DOC ANO Ano que o documento foi gerado. D DOC ASSUNTO Assunto que representa o documento. VA100 DOC AUTOR Autor original do documento. VA100 DOC DATA Data de inclusão do documento no acervo D DOC END FISICO Endereço físico onde o documento está armazenado. VA100 DOC ID Identificador do documento. I DOC TÍTULO Título do documento. VA100 DOC VERIFICADO Campo que verifica se um documento pode ou não ser

adicionado ao acervo. BL

DOC_COUNT Conta o numero de ocorrência do termo no documento I DOC_PALAVRA_ CHAVE

Palavras_chaves que identificam o documento TXT250

DOC_POS Campo que marca a posição do termo, referente ao arquivo cache

I

DOC_WORD Tipo da palavra do registro I ESC CORRETA Campo que marca com verdadeiro a resposta correta. BL ESC DESCRIÇÃO Descrição de cada escolha. TXT ESC ID Identificador da escolhas das perguntas do questionário. I ESC_OPCAO Define a letra da opção (a,b,c,d,e) A1 JS_ID_FRASE Campo que controla o sincronismo entre maquina do

professor e aluno através do javascript TXT

49

Tabela 5. Dicionário de dados (continuação).

Campo Descrição tipo Nível_Privilegio Identificado dos níveis do sistema (aluno, professor,

administrador, Adm. Sistema). I

PER_DESCRIÇÃO Descrição de cada escolha. TXT PER_ID Identificado das perguntas. I RES_ID Identificado da resposta do aluno I TUR_ANO Ano correspondente da turma I TUR_ID Identificação da turma I TUR_NOME Nome de uma turma ou grupo de alunos que exerceram

alguma atividade. VA25

USU_EMAIL E-mail do usuário VA100 USU_ID Identificador de um usuário I USU_MATRICULA Matricula do usuário I USU_NOME Descrição do nome do usuário VA100 USU_SENHA Senha escolhida pelo usuário VA32

50

3.5. DESENVOLVIMENTO

O desenvolvimento desde projeto tem como finalidade proporcionar um melhor

aproveitamento dos recursos computacionais no contexto da Informática na Educação. Sendo

desenvolvida uma Biblioteca Digital em ambiente web, proporcionando diversos recursos que irá

auxiliar o professor.

O desenvolvimento do projeto está dividido em duas etapas: a primeira é o Sistema de

Recuperação de Informação (SRI) onde se faz o tratamento e recuperação dos documentos a fim de

obter alguma informação/documento; a segunda é o Sistema de Apoio ao Ensino que consiste em

uma ferramenta para o professor utilizar documentos a serem ministrados em laboratório de

informática. Permite também, criar questionários para avaliar o aprendizado do aluno. Este

questionário pode ser efetuado em ambiente on-line, tanto para o professor como para o aluno.

3.5.1. Sistema de Recuperação de informação

O SRI é a etapa responsável pela manutenção, ampliação, preservação, indexação e

recuperação dos documentos que compõem o acervo. Para recuperar um documento e acessar as

informações que constam no mesmo, se faz necessário utilizar um método de recuperação. Este

método utiliza-se de termos relevantes que constam no corpo do documento para assim identificar

os documentos que contenha a informação desejada pelo usuário.

As etapas que compõem o SRI são as seguintes:

• Catalogação dos documentos;

• Remoção de stopwords;

• Normalização morfológica;

• Indexação e estruturas de armazenamento;

• Armazenamento do documento em Cache; e

• Busca e visualização.

A seguir é descrita cada etapa que os documento sofre no interior do SRI e o que afeta no

documento, juntamente como exemplos e a interface.

51

3.5.1.1. Catalogação dos documentos:

Essa é a primeira etapa de um SRI, sua única função é permitir que novos documentos sejam

adicionados no acervo, onde o usuário através do Formulário de Envio de Documento visto na

Figura 25, poderá adicionar arquivos de diversos formatos, ou através do Formulário de Edição

(editor de HTML de código aberto que consta no sourceforge) visto na Figura 26. Todos os

documentos adicionados deverão ser analisados nas etapas posteriores do SRI para que possam ser

recuperados futuramente.

Figura 25. Formulário: Envio de Documentos para o acervo

Figura 26. Formulário de Edição

52

Os Documentos Inseridos pelos alunos deverão ser avaliados pelo professor responsável

pela turma a qual o aluno está matriculado. Este controle se dá para que documentos com conteúdo

impróprio ou não relevante não sejam adicionados ao acervo. A inclusão de documentos pelos

alunos garante uma ampliação constante do acervo, mas poderá conter documentos com conteúdos

duplicados, por não existir um avaliador humano (bibliotecário), que se responsabilize pelo controle

do acervo.

Nesta etapa, não se fez nenhum controle de Direitos Autorais, devido ao sistema ser

utilizado inicialmente apenas pelo CAU. Deverá ser criada uma política junto aos professores de

não violação dos Direitos Autorais, ou seja, não autorizar os professores que copiem documentos de

autores sem autorização do mesmo.

Qualquer documento digital poderá ser adicionado no acervo, mas apenas documentos do

formato HTML, RTF e TXT poderão te seu conteúdo analisado. Todos os outros formatos serão

encontrados pelos campos descritos no Formulário.

A escolha pelos formatos HTML, RTF, TXT se fez devido a serem formatos públicos e de

padrão ASCII, permitindo assim que os scripts PHP possam ler os documentos pelo processo de

streams. Outros formatos como PDF da adobe, DOC da Microsoft Word entre outros, poderão ser

avaliados futuramente pelo conteúdo desde que seja estudado e implementado a retirada de suas

tags de formatação e ser recuperado apenas as palavras dos documentos.

3.5.1.2. Remoção de stopwords

As palavras que apenas conectam frases ou que ocorre em muitos documentos são

consideradas de baixa relevância. Estas palavras não devem fazer parte da estrutura de índice de

palavras que identifiquem o documento.

O formulário visto na Figura 27, lista os termos do dicionário, permitindo ao administrador

do sistema duas atividade: identificar as palavras que mais se repetem, através da contagem de

palavras nos documentos; e identificar palavras de conexão de frases. Ao identificar uma stopwords

o administrador deve excluir esta palavra do dicionário e assim adiciona automaticamente na tabela

de stopwords.

53

Figura 27. Formulário: Lista os termos do dicionário.

O Formulários de manutenção de stopwords (Figura 28), visualiza as palavras que constam

no banco de stopwords, caso seja excluída alguma palavra, a mesma poderá ser novamente

indexada ao conteúdo dos documentos.

Figura 28. Formulário: Manutenção de stopwords.

54

3.5.1.3. Normalização morfológica

As palavras dos documentos são escritas em linguagem natural, ou seja, uma palavra que

representa uma informação poderá variar em sua fonética, grau, gênero e número, sendo que mesmo

com a ocorrência desta variação a palavra ainda continua representando à mesma informação

original. Mas há inúmeras exceções na língua portuguesa que o sistema não consegue tratar como

exemplo as diferenças entre palavras que têm sentidos diferentes apenas mudando sua acentuação

ou a função que exerce na frase.

A análise morfológica consiste na execução de diversas funções executada sobre o

documento que está sendo analisado. A primeira função executada é a retirada da acentuação e tags

de formatação, sendo que para cada formata do arquivo há uma função especifica que tratará a

especificação de tags e acentos. Como por exemplo, o HTML representa a letra “Ó” como

“Ó” e a “Í” como “Ì” já o RTF representa o “Ó” como “\'d3” e a letra “Í” como

“\'cc”.

A função seguinte consta da retirada dos sufixos, gêneros e graus. Isto é feito pela expressão

regular que faz a comparação direta da palavra com as regras de redução de radical (stemming)

desenvolvida, a qual pode ser vista no apêndice E. Um exemplo de regra é a expressão regular

“(ais)[$]”, quando encontrada converterá para “al”, resultando a palavra manuais em manual.

A última função desta etapa é a procura pelo verbete mais similar. A função busca no

dicionário de verbetes as palavras que tiverem acima de 75% de similaridade com a palavra

original ou seja, ¾ dos caracteres devem ser idênticos. A palavra que tiver a maior taxa de

similaridade com a palavra original é armazenada na estrutura de índice. A taxa de similaridade

pode ser alterada. Quanto maior o valor especificado, maior será a precisão em termo de

documentos recuperados e menor a abrangência.

O processo de tratamento morfológico não pode garantir 100% de acerto, devido as

exceções da língua portuguesa, isto faz com que o resultado não corresponda a informação original,

conforme Figura 29. Mas na pré-visualização do documento no formulário de busca o usuário

poderá analisar se o termo contém ou não relevância.

55

Palavra Original Morfológica Verbete

itajaienses itajaiense itajai canais canal cana comumente comum comum cursos curso cursor digitais digital digital escrevendo escrevendo escreve escrever escreve escreve nascimento nascimento nascer país pais pais realizações realizacao realizar

Figura 29. Resultados gerados pela Análise Morfológica.

No fim da etapa de normalização morfológica obtêm-se os termos de consulta, que são as

três formas da palavra (original, morfológica e verbete) que identificam o conteúdo de algum

documento que está armazenado no acervo. Estas três formas são adicionadas na estrutura de índice

desde que não sejam idênticas.

3.5.1.4. Indexação e estruturas de armazenamento

A rápida localização dos documentos no acervo, só é possível utilizando um sistema de

busca que funciona através de índices. Estes índices têm como função selecionar as palavras

relevantes nos documentos e armazená-las na estrutura de índice. O índice é gerado por um método

Hash chamado CRC32 (Cyclic Redundancy Checksum de 32-bit) da palavra, onde apenas é

armazenado um valor numérico que representa a palavra. Todo este processo é chamando processo

de indexação.

Todo o processo de indexação é automático, feito através de procedimentos internos

realizados pelos script PHP. O usuário apenas verifica se o documento poderá ser inserido no

acervo, caso o documento não seja aprovado, o usuário elimina o documento da base do acervo,

conforme visto na Figura 30.

Figura 30. Formulário: Indexação Automática.

56

Para representar uma palavra relevante que identifica o documento se utiliza de vários outros

campos, conforme Figura 31. Sendo que estes campos são: identificação do documento; o hash da

palavra; a posição da palavra no arquivo de cache; o tipo da palavra; e o número de ocorrência da

palavra no documento. O campo “palavra” é apenas ilustrado na Figura 31 para melhorar a

compreensão da mesma, no entanto, este atributo não faz parte do banco de dados.

Palavra DOC_ID DIC_HASH CRC32

DOC_POS DOC_WORD DOC_COUNT

casa 61 2137349405 2 0 (original) 6 malburg 61 -441594284 7 0 (original) 11 itajai 61 473556148 19 0 (original) 5 sc 61 -1854928856 26 0 (original) 2 encantos 61 -1342541227 59 0 (original) 1 encanto 61 -16553476 59 1 (morfológico ) 1 arquitetonicos 61 -759372732 68 0 (original) 1 arquitetonico 61 -1106523789 68 1 (morfológico ) 1

marcaram 61 8382302 87 0 (original) 1 marcar 61 -391072702 87 2 (verbete ) 1 presenca 61 1847198652 98 0 (original) 1 grandiosa 61 2029115831 109 0 (original) 1 grandioso 61 -1622543184 109 2 (verbete ) 1 colonizadora 61 -1427907084 124 0 (original) 1 colonizado 61 -1746053093 124 1 (morfológico ) 1 colonizador 61 -419701975 124 2 (verbete ) 1 imigrante 61 1655852073 214 0 (original) 1 alemao 61 -1011573123 224 0 (original) 3 catarina 61 1704829205 237 0 (original) 1

Figura 31. Representação da estrutura de índice.

O campo “DOC_WORD” identifica o tipo da palavra, se ela é a original do texto, gerada

pelo analisador morfológico ou é o verbete mais próximo da palavra original. Esta estrutura permite

que a consulta do usuário seja mais abrangente.

3.5.1.5. Armazenamento documento em Cache

O documento em cache é equivalente ao documento original, mas não contêm as tags de

formatação do formato original do documento. A função deste arquivo é poder identificar e

visualizar as palavras próximas dos termos de consulta no momento da pré-visualização do

documento. A localização é possível através do campo “DOC_POS” da estrutura de índice (Figura

31), que representa a posição física da palavra no arquivo de cache.

57

Para melhorar o desempenho do sistema na recuperação dos termos utilizou-se um arquivo

cache ao invés de manter todas as palavras na estruturas de índice. A representação anterior

ocupava mais espaço em disco do que o arquivo original tornando as consultas mais lentas. Por

exemplo: um documento com 17.000 palavras foram encontradas 9500 palavras relevantes. Destas,

8.600 foram adicionadas por serem verbetes ou geradas pela análise morfológica. No total foram

adicionadas 18.100 palavras na estrutura de índice além de outros campos de identificação. Com a

utilização do arquivo de cachê, possibilitou manter as 17.000 palavras em um arquivo externo e as

9.500 palavras relevantes foram reduzidas para 5.300 pois muitas eram repetidas. Foram

encontradas 3.300 verbetes ou gerados pela análise morfológicas, sendo armazenadas apenas 8.600

palavras na estrutura de índice.

3.5.1.6. Busca e visualização

Essa etapa consolida o SRI, é onde o usuário através de termos (palavras) de consulta busca

a informação (documento) que atenda sua necessidade. Todas as palavras fornecidas na consulta

passam pelos mesmos processos que os documentos.

Os documentos são visualizados em um ranking, adotando a seguinte ordem: 1) os

documentos que contêm os termos nos campos de identificação (titulo, assunto, autor, palavras-

chave); 2) Os documento que contêm todas as palavras; 3) os que contêm o maior números de

palavras por documento; e 4) os documentos que contenham algumas das palavras.

O formulário visto na Figura 32, permite ao usuário decidir quais os documentos que

possam atender sua necessidade, através de uma pré-visualização do documento em cache.

58

Figura 32. Formulário de Busca.

Na Figura 32, é possível notar uma inconsistência gerada pelo dicionário de verbetes, onde é

apresentado ao usuário a palavra Itaipava, que têm 78% de grau de similaridade com Itajaí. No

entanto, não há nenhuma relevância para o usuário. Devidos a estas inconsistências na abrangência

dos dicionários de verbetes e morfológicos, há necessidade de uma pré-visualização do documento.

Uma característica do sistema de busca é a sua capacidade de sugerir ao usuário uma nova

consulta. Isto é possível através da comparação do termo da consulta com os termos do dicionário

de palavras, retornando assim a palavra mais similar ao termo da consulta, sendo que esta já consta

em algum documento, exemplo visto na Figura 33.

Figura 33. Sistema de sugestão de consulta.

3.5.1.7. Os Dicionários

O SRI utiliza três dicionários, sendo eles:

59

• O Dicionário de Palavras, onde são armazenados os termos já encontrados nos

documentos, se armazena o hash e a palavra; e

• O Dicionário de Stopwords, armazena as palavras que não deverão ser utilizadas para

identificar um documento; e

• O Dicionário de Verbete que permite a identificação dos verbetes das palavras,

garantindo assim uma maior abrangência na consulta.

Todos os dicionários têm respectivos formulários, os quais permitem uma manutenção da

tabela, sendo que esta atividade deverá ser feita por um administrador.

3.5.2. Estrutura do SRI

O Sistema de Recuperação de Informação tem em sua estrutura todas as etapas citadas

anteriormente, a ordem vista na Figura 34 poderá ser alterada, conforme a necessidades que se

pretenda atingir.

60

Figura 34. Estrutura do SRI.

Aprova documentos

Tratador HTML Retira tags/converte

acento em ASCII

Tratador RTF Retira tags/ converte

acento em ASCII

Formatos não reconhecidos

TXT

ARQUIVOS EM CACHE

Análise morfológica

Identificador de verbete

Formato Original do Documento

Documento que não foram analisados

Banco de Dados

Busca Verbete

Grava todos Termos que identifica o

documento

Seleciona Termos Relevantes

Busca Stopword

CRC32 Método Hash

Consulta do Usuário

Termos de Consulta

Resultado da Consulta Ranking e Pré-Visualização dos documentos

Busca Documentos

Consulta Documentos por termos

Retira Acentos

ACERVO (documentos não analisados)

Termos que representam o

documento

Contador de palavras. Marcador de posição.

61

3.5.3. Armazenamento dos documentos

Na Tabela 6, pode ser visto a comparação do espaço ocupado pelo documento original e o

documento gravado em cachê. Observa-se que a redução media do arquivo é de 78%. Essa redução

não ocorre nos arquivos de imagens, pois não há nenhum processo de redução do mesmo.

Tabela 6. Ocupação dos documentos em disco

DOCUMENTO

ORIGINAL

ARQUIVO EM CACHE

Documento

Formato Quantidade de palavras

Tamanho em disco (KB)

Quantidade de palavras

Tamanho em disco (KB)

Redução (%)

O Bairro Fazenda RTF 349 7 237 1 86 O Bairro Sao Joao RTF 690 8 428 3 63 Rua Hercilio Luz RTF 308 7 222 1 86 Rua Felipe Schimdt RTF 175 6 130 1 83 Igreja Imaculada Conceicao

RTF 384 7

252 1 86

Escola digital inclusiva RTF 283 5 202 1 80 Casa da cultura de Itajaí RTF 278 3 131 1 67 TCC Rodrigo Nunes RTF 24.369 738 3.763 178 76 Praia de Cabeçudas, 1952 JPG 0 18 0 18 0 Porto de Itajaí JPG 0 19 0 19 0 Morro da Cruz, 1982 JPG 0 10 0 10 0 MEDIA 75,27 21,91 78

Para se prever a alocação de um espaço em disco para o sistema, se deve considerar o

tamanho médio dos arquivos originais juntamente com os de cachê. Exemplo: Para armazenar 1.000

documentos no acervo, considerando que o tamanho médio dos documentos originais é de 75 KB e

os documentos em cachê é de 22 KB deveram ser alocados em torno de 100 MB para armazenar

estes arquivos.

A previsão do tamanho do disco varia conforme o tipo de arquivos que a serem alocados,

pois arquivos de imagens, sons, vídeo tendem a ocupar maior espaço em disco, assim necessitando

que estes sejam reduzidos em formatos gif, jpg, mp3 antes de serem adicionados ao acervo.

62

3.5.4. Características da Biblioteca Digital

Para uma melhor compreensão das diferenças do sistema de biblioteca digital proposta em

relação às duas analisadas, na seção 2.3.1 Biblioteca Digital de Teses e Dissertações da UFRGS –

BDTD e na seção 2.3.2 Biblioteca Digital da UNICAMP, criou-se a Tabela 7, com as

características de cada sistema.

Tabela 7. Comparação entre as Bibliotecas Digitais

DESEMPENHO Variáveis Características UFRG UNICAMP BD

Armazenamento dos Documentos

Integridade do documento digital; Espaço em disco; Facilidade e rapidez na inserção; Dados de conteúdo e informações adicionais; Indexação dos arquivos; Integração de dados.

SIM SIM SIM

Mecanismo de Busca por campos

Procura os documentos por campos de identificação do documento (autor, titulo, etc).

SIM SIM SIM

Mecanismo de Busca por Termos

Procura documentos que contenham os termos da consulta no seu interior.

NÃO SIM SIM

Controle de Acesso Registro de quem realiza visitas e downloads. NÃO SIM NÃO

Estatísticas Indicadores de downloads. NÃO SIM NÃO

Interação Interagem com outras bibliotecas SIM NÃO NÃO

Envio de Documento Permite usuários enviarem documentos ao acervo SIM NÃO SIM

Direitos Autorais Exige preenchimento de documento de direitos autorais

SIM NÃO NÃO

Termos compostos Permite consulta através de termos compostos SIM SIM NÃO

63

3.5.5. Sistema de Apoio ao Ensino

O sistema de apoio ao Ensino tem o objetivo de proporcionar ao usuário (Professor/Aluno)

uma maior interação com o ambiente e ferramentas digitais. O sistema desenvolvido é um recurso a

mais que estará disponível ao professor para utilizar no processo de ensino. O sistema de apoio ao

ensino está dividido nas seguintes etapas:

• Gerenciar turma;

• Gerenciar aula;

• Questionários e Relatório Desempenho; e

• Ministrar aula e assistir aula;

3.5.6. Gerenciar a Turma

Esta etapa é responsável pelo controle dos alunos que formam uma determinada turma e

pela qual um professor é responsável. Não necessariamente deverá ser um espelho da turma da sala

de aula, mas sim representar um grupo de aluno que pode ser a junção de duas ou mais turmas ou

escolha de alunos de diversas turma para realizar uma atividade extra-classe, ficando a critério de

cada professor formar sua turma e escolher os alunos que compõem a mesma.

O aluno após se cadastrar e realizar o login no sistema poderá solicitar sua inclusão em uma

ou mais turmas, cabendo ao professor responsável por cada turma aceitar este aluno ou apenas o

excluir, sendo este processo feito pelos formulários visto na Figura 35. O sistema também permite

ao professor incluir o aluno diretamente, sem precisar pedir o consentimento do mesmo através do

formulário visto na Figura 36.

64

Figura 35. Formulário de solicitação de inclusão de aluno em uma turma.

Figura 36. Formulário de inclusão de aluno feita pelo professor.

65

3.5.7. Gerenciar aula

Nesta etapa, o professor gerenciará todas as suas aulas juntamente como todas as atividades

da mesma. O formulário visto na Figura 37, faz o controle da aula, permite o acesso aos formulários

de controle de questionário, formulário de edição de conteúdo da aula e ministrar aula para uma

turma.

Figura 37. Formulário controle de aula.

3.5.8. Questionários e Relatório Desempenho

O sistema permite ao professor montar um questionário para cada aula, sendo que os alunos

desta poderão acessar e responder o mesmo. O aluno responde o questionário através do formulário

visto na Figura 38. Conforme pode-se observar na figura, toda a vez que o aluno entra neste

formulário o sistema ordena aleatoriamente as perguntas e as opções, a fim de evitar irregularidades

de alunos ao responder o questionário (cada aluno recebe uma prova diferente da outra).

Figura 38. Formulário de resposta do questionário.

66

O relatório de desempenho é apresentado através do formulário visto na Figura 39, sua

função é permitir ao professor ter um mapa geral das respostas realizadas pelos alunos, e assim

podendo avaliar o desempenho de cada aluno.

Figura 39. Formulário de Relatório.

O sistema permite ao professor verificar as respostas realizadas por cada aluno, conforme a

Figura 40, portanto permitindo observar as dificuldades encontradas pelo aluno ao responder cada

questão.

Figura 40. Formulário de avaliação das respostas por aluno.

67

3.5.9. Aula em Laboratório

O sistema possui uma ferramenta de ajuda aos professores, pois permite a eles ministrarem

aulas no laboratório de informática através do formulário visto na Figura 41. Para que possa ser

ministrada uma aula, há necessidade do professor fazer a edição do conteúdo da aula em um

formato específico usando o editor do sistema. Os alunos devem estar logados no sistema para

acompanhar a aula. Após esta aula, por exemplo, os alunos podem responder um questionário para

avaliar os conhecimentos. Cada aluno pode receber um questionário diferente do outro, para evitar

que eles ditam a resposta de cada pergunta.

Devido ao professor e os alunos estarem no mesmo ambiente físico, o sistema permite ao

professor selecionar e explanar verbalmente um parágrafo ou um fragmento da frase. As palavras

que forem selecionadas pelo professor (figura 41) serão vistas nas máquinas dos alunos com uma

cor diferente, sendo que esta tela será atualizada a cada 2 segundos, verificando se o professor

alterou a seleção de palavras.

Figura 41. Sincronismos da aula.

68

4. AVALIAÇÃO DO SISTEMA

Para realizar o objetivo especifico de validação do sistema, descrito no projeto, foi realizado

um teste junto às turmas da 3ª Série do CAU (duas turmas), onde foram realizadas algumas

perguntas e testes de uso do sistema. Todos os alunos fizeram uso do sistema após um breve

treinamento (57 alunos estavam presentes, incluindo três professores).. Foram simuladas situações

de aula onde o professor ministrou uma aula usando o sincronismo das máquinas. Após esta aula os

alunos responderam a um questionário elaborado pelo professor. Os alunos elaboraram um texto o

qual foi submetido ao professor para que o mesmo fosse validado ou descartado. No final, os alunos

puderam pesquisar palavras-chaves existentes nos documentos que eles mesmos elaboraram. Além

de comentários pessoais dos alunos e professores registrou-se em um questionário as impressões de

cada um sobre o uso e benefícios oferecidos pelo sistema.

O questionário realizado poderá ser visto no apêndice F. Suas perguntas tinham como

objetivo verificar a navegabilidade do sistema, se atendia os todos os objetivos específicos e se o

sistema é atraente para os usuários. Os resultados obtidos podem ser visto na Tabela 8.

Tabela 8. Tabela de Validação.

NAVEGABILIDADE objetivo Atendia Não atendia

Verificavam a navegabilidade do sistema 45 12

OBJETIVOS ESPECÍFICOS Atendia Não atendia

Verificavam se o aluno conseguiu realizar as funções do sistema

49 8

INTERESSE DO ALUNO AO UTILIZAR O SISTEMA Atendia Não atendia

Verificavam se o sistema é de interesse do aluno, se o mesmo iria utilizar essa ferramenta.

57 0

69

Observou-se que quase um quarto dos alunos relataram que a navegabilidade não atendia.

No entanto, constatou-se que muitos alunos não sabiam ler adequadamente e/ou não sabiam

interpretar as funcionalidades do sistema. Por exemplo, alguns alunos não sabiam o que era número

da matrícula, esqueciam sua própria senha e não tinha conhecimento de informática para postar um

arquivo para o professor. Em função disso, a análise da interface foi considerada adequada. Sugere-

se neste caso, que o sistema deve ser usado para alunos com conhecimentos melhores, ou seja, em

séries mais avançadas. Caso o sistema venha a ser usado pelas séries iniciais, então deve-se rever a

interface.

70

5. CONCLUSÃO

O projeto de uma Biblioteca Digital foi desenvolvido com o objetivo de ser uma ferramenta

que auxilie no processo de ensino voltado para as necessidades do colégio de Aplicação da Univali.

Ele exerce a função tradicional de uma biblioteca que é manter um acervo de documentos, mais

também permite que os profissionais da educação tenham nesta ferramenta uma ajuda no processo

de ensino através da informática, utilizando os recursos da ferramenta.

A ferramenta permite ao professor formar turmas de alunos e ministrar aulas em laboratórios

de informática através de documentos digitais, juntamente com um sistema de questionário para que

avaliar a aprendizagem dos alunos. Para ministrar aulas em laboratório desenvolveu-se uma

interação entre a máquina do professor e a dos alunos. Através de uma interface o professor pode

disponibilizar um texto e questões a serem respondidas pelos alunos. O desenvolvimento desta

integração se fez através de técnicas utilizadas em sistemas de bate-papos, onde as máquinas

conversam entre si através de variáveis no servidor, buscando atualizações a cada intervalo de

tempo, a finalidade desta interação permite ao aluno visualizar o texto e o fragmento da frase a qual

o professor gostaria de dar ênfase.

O aluno poderá interagir com a Biblioteca Digital, enviando documentos para o acervo, onde

o professor deverá incentivar a aprendizagem dos alunos através da pesquisa e criação de novos

documentos, assim também garantindo a expansão natural do acervo desta Biblioteca.

Ao permitir o envio de documentos para o acervo pelos professores e alunos se pretende

eliminar a dificuldade que os professores encontravam em editar e manter conteúdos que não

constam em nenhuma bibliografia ou que sejam de difícil acesso. A ferramenta permite o

professor/aluno criar um documento e manter no acervo da biblioteca. Os recursos digitais têm uma

fácil visualização dos documentos sem se preocupar com a limitação de cópia. No entanto, esta

facilidade traz o problema dos Direitos Autorais, pois o sistema não tem como definir se um

documento foi desenvolvido por um professor ou se é uma cópia. Por este motivo o material,

necessita ser analisado pelos professores.

A Biblioteca Digital além de manter o acervo de documento deve garantir uma rápida

localização destes documentos. Isto foi possível através do desenvolvimento de um Sistema de

Recuperação de Informação que utiliza métodos Hash e empregando o algoritmo CRC32 (Cyclic

71

Redundancy Checksum de 32-bit) que converte uma palavra em número e adiciona a mesma em

uma estrutura de índice em um Banco de Dados.

A localização dos documentos se faz através da consulta por palavras que constam no corpo

do documento, ou nos campos de identificação, sendo que a visualização dos documentos

encontrados se faz através de um ranking. Para a melhor avaliação da relevância dos documentos

pelo usuário se faz uma pré-visualização da frase onde se encontra a palavra que o usuário deseja

encontrar.

A estrutura do SRI desenvolvida se comporta eficazmente, pois mantêm o mínimo de

palavras na estrutura de índice, sendo que as palavras com várias ocorrências no documento, são

identificadas e contadas, e o texto é mantido integramente no formato original, e as palavras

identificadas como relevantes são mantidas em um arquivo de cache.

Acredita-se que com a implantação desta Biblioteca Digital ocorrerá um melhor

aproveitamento dos recursos digitais no processo de ensino do CAU, tanto na utilização da

biblioteca para armazenar os documentos quanto na utilização do laboratório para ministrar aulas e

questionários.

Seria importante desenvolver uma interface para alunos de séries iniciais que não são

plenamente alfabetizados e não possuem conhecimento de informática.

O desenvolvimento deste trabalho de conclusão de curso permite que outros trabalhos

possam ser feitos a partir do mesmo. Sugerem-se as seguintes funcionalidades: um mecanismo que

permita a comunicação com outras bibliotecas compartilhando os acervos; interfaces adaptativas

conforme a acessibilidade do usuário; permitir o sistema fornecer aulas em ensino a distancia.

.

REFERÊNCIAS BIBLIOGRÁFICAS

ALTAVISTA. Alta Vista Brasil. Pasadena, Califórnia, 2005. Disponível em: <http://br.altavista.com>. Acessado em: 1 jun. 2005.

ALVES, Maria Bernardete Martins; MENDES, Elise Barbosa. Um modelo de aprendizagem construtivista para busca de informação significativa em bibliotecas virtuais. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS UNIVERSITÁRIAS, 9.. Anais... Florianópolis, 2000. Disponível em: <http://snbu.bvs.br/snbu2000/docs/pt/doc/t143.doc>. Acessado em: 22 mai. 2005.

ANDRADE, Marcos Vinícius Mendonça; BARAÚNA, Mara Lucia Andrade. Bibliotecas virtuais temáticas: o processo de implantação da biblioteca virtual. de arquitetura e urbanismo. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS UNIVERSITÁRIAS. Anais... Recife, 2002. Disponível em: <http://www.ndc.uff.br/textos/BV.pdf>. Acessado em: 22 mai. 2005.

BDTD-UFRGS. Biblioteca digital de teses e dissertações da UFRGS. Disponível em: <http://www.biblioteca.ufrgs.br/bibliotecadigital>. Acessado em: 22 jun. 2005.

BD-UNICAMP. Biblioteca digital da UNICAMP. Disponível em: <http://libdigi.unicamp.br>. Acessado em: 22 jun. 2005.

BORGES NETO, Hermínio. Uma classificação sobre a utilização do computador pela escola. Revista da educação: Educação em debate, Fortaleza, v. 37, n. 01, p. 135-138, 1999. Disponível em: <http://www.multimeios.ufc.br/producao_cientifica/pdf/pre-print/Uma_classificacao.pdf>. Acessado em: 15 mai. 2005.

CERT-RS. Autentificação. Porto Alegre, 2005. Disponível em: <http://www.cert-rs.tche.br/docs_html/autentic.html>. Acessado em: 11 jun. 2005.

CHANG, Shih-Fu et al. Visual information retrieval from large distributed online repositories. Communications of the ACM, New York: ACM Press, v. 40, n.12, p. 63-71, 1997.

CHAVES, Eduardo O C; SETZER, Valdemar W. O uso de computadores em escolas: fundamentos e críticas. São Paulo: Scipione, 1988. Disponível em: <http://www.edutec.net/Textos/Self/Edtech/scipione.htm>. Acessado em: 1 jun. 2005.

CHEN, Hsinchun. The vocabulary problem in collaboration. IEEE Computer: Special issue on cscw, Los Alamitos, v.27, n.5, p. 2-10, 1994. Disponível em: <http://ai.bpa.arizona.edu/papers/cscw94/ cscw94.html>. Acesso em: 22 mai 2000.

CRUZ, Vilma Aparecida Gimenes da. Projeto de implantação e implementação da biblioteca digital da UNOPAR como suporte básico ao ensino a distância. Universidade Norte do Paraná, 2004. Disponível em: <http://www.abed.org.br/congresso2004/por/htm/152-TC-D2.htm>. Acesso em: 22 mai 2005.

CUNHA, Murilo Bastos da. Desafios na construção de uma biblioteca digital. Ciência da Informação, Brasilia, v. 28, n. 3, p. 255-266, 1999. Disponível em: <http://eprints.rclis.org/archive/00003707/01/Murilo_1999.pdf>. Acessado em: 11 jun. 2005.

73

DIAS, Guilherme Ataíde. Periódicos eletrônicos: Considerações relativas à aceitação deste recurso pelos usuários. Ciência da Informação, Brasília, v.31, n.3, p. 18-25. 2002. Disponível em: <http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=471&article=175&mode=pdf >. Acessado em: 11 mai. 2005.

DINIZ, Patrícia. Biblioteca do futuro: Sem paredes e barreiras físicas as bibliotecas ampliam suas fronteiras e democratizam a informação. 2005. Disponível em: <http://www.cg.org.br/gt/gtbv/artigo02.htm>. Acessado em: 23 mai. 2005.

ELISA. eLISa: Sistema integrados de Bibliotecas. 2005. Universidade do Vale de Itajaí. Disponível em: < http://200.169.63.75/scripts/elisa/index.php>. Acessado em: 1 jun. 2005.

FERNEDA, Edberto. Recuperação de informação: Análise sobre a contribuição da ciência da computação para a ciência da informação. 2003. 147 f. Tese (Doutorado em biblioteconomia e documentação) - Universidade de São Paulo, São Paulo, 2003. Disponível em: <http://www.teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/publico/Tese.pdf>. Acessado em: 22 mai. 2005.

FRAKES, William B. Stemming Algorithms. In: FRAKES, William B.; BAEZA-Yates, Ricardo A. Information retrieval: data structures & algorithms. Upper Saddle River, New Jersey: Prentice Hall PTR, 1992.

GALLO, Simone Andrea D'Ávila. Informática na educação infantil: tesouro ou ouro de tolo. In: ANPED, 2002, CAXAMBU. REUNIÃO ANUAL DA ANPED/ EDUCAÇÃO, 25: manifestos, lutas e utopias. Anais... Rio de Janeiro: Associação Nacional de Pós-Graduação e Pesquisa em Educação, 2002. Disponível em:<http://www.anped.org.br/25/excedentes25/simoneandreagallot07.rtf >. Acessado em: 14 mai. 2005.

GONZALEZ, Marco; LIMA, Vera Lúcia Strube de. Recuperação de Informação e expansão automática de consulta com thesaurus: uma avaliação. In: CONFERÊNCIA LATINOAMERICANA DE INFORMÁTICA 27., 2001, Mérida Memórias.. [S.l.]: CLEI, 2001. v. 1. p. 1-10. Disponível em:<http://www.inf.pucrs.br/~gonzalez/docs/expanconsul.pdf>. Acessado em: 11 mai. 2005.

GONZALEZ, Marco; POHLMANN FILHO, Omer; BORGES, Karen Selbach. Informação digital no ensino presencial e no ensino a distância. Porto Alegre, 2001. Disponível em: <http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=525&article=236&mode=pdf >. Acessado em: 22 mai. 2005.

GONZALEZ, Marco; POHLMANN FILHO, Omer; BORGES, Karen Selbach. O papel da informação digital no ensino. In: CONGR. BRAS. DE BIBLIOTEC. E DOCUMENTAÇÃO, 19. E CONGR. LATINO-AMERICANO DE BIBLIOTEC. E DOCUMENTAÇÃO, 3., 2000. Anais... Porto Alegre, 2000. Disponível em:<http://www.ulbra.tche.br/~kborges/bib/cbbd2000.pdf >. Acessado em: 22 mai. 2005.

GOOGLE. Google Brasil. 2005. Disponível em: <http://www.google.com.br>. Acessado em: 1 jun. 2005.

HAYES, R. M. Information Science Education. In: ALA WORLD ENCYCLOPEDIA OF LIBRARY AND INFORMATION SCIENCE. Anais... Chicago, 1986.

74

KEMPINAS, Ana Lucia de Grava. Implantação da biblioteca digital de teses e dissertações da Universidade Estadual Paulista - UNESP. In: SIMPÓSIO INTERNACIONAL DE BIBLIOTECAS DIGITAIS, 2. Anais... Campinas, 2004.

KOWALSKI, Gerald. Information retrieval systems: theory and implementation. Boston: Kluwer Academic Publishers, 1997.

LANCASTER, F. Wilfrid. Information retrieval systems: Characteristics, testing and evaluation. New York: John Wiley e Sons, 1968.

LOH, Stanley. Descoberta de conhecimento em textos. Exame de qualificação: Instituto de Informática, Universidade Federal do Rio Grande do Sul, Porto Alegre, 1999.

MARCHIORI, Patricia Zeni. “Ciberteca” ou biblioteca virtual: uma perspectiva de gerenciamento de recursos de informação. Ciência da Informação, Brasília, v.26, n.2, p. 115-124, maio/ago 1997. Disponível em: http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=750&article=427&mode=pd. cessado em: 22 mai. 2005.

MERCADO, L. L. Novas tecnologias na educação: reflexões sobre a prática. Maceió: EDUFAL, 2002.

MOREIRA, Jander. I. et al. Arquivos invertidos & bitmap. Universidade Federal de São Carlos. Disponível em: < http://www.dc.ufscar.br/~jander/ori203/grupo10c.pdf >. Acesso em: 01 jun. 2005.

MOURA, Mirtes Zoé da Silva. No discurso de professores, a formação para o trabalho com computadores no contexto escolar. 2005. Disponível em: <http://www.anped.org.br/25/excedentes25/mirteszoesilvamourat08.rtf>. Acessado em: 11 mai. 2005.

NEUBERT. Marden Silveira. Recuperação aproximada de informações em textos comprimidos e indexados. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Minas Gerais, 2000.

OLIVEIRA, Zita Prates de; et al. Implementação da biblioteca digital da UFRGS. In: CICLO DE PALESTRAS NOVAS TECNOLOGIAS NA EDUCAÇÃO, 2003. Anais... Porto Alegre. 2003. Disponível em: <http://www.cinted.ufrgs.br/renote/set2003/artigos/implementacaobiblioteca.pdf>. Acessado em: 22 jun. 2005.

RILOFF, Ellen. Little words can make big difference for text classification. In: ANNUAL INTERNATIONAL ACM-SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 1995, Seattle, USA. Proceedings... New York: ACM Press, 1995.

SALTON, Gerard; MACGILL, Michael J. Introduction to modern information retrieval. New York: McGRAW-Hill, 1983.

SANT’ANNA, Marcelo Leone. Os desafios da preservação de documentos públicos digitais. Fundação João Pinheiro, Belo Horizonte. Disponível em: <http://www.ip.pbh.gov.br/revista0302/ip0302santanna.pdf>. Acessado em: 1 jun. 2005.

75

SANTOS, Maria Angela M. Roveredo dos. Extraindo regras de associação a partir de textos. 2002. 71 f. Dissertação (Mestrado em Informática Aplicada) - Universidade Católica do Paraná, Curitiba, 2002. Disponível em: <http://www.ppgia.pucpr.br/ensino/defesas/Maria_Angela%20_2002.PDF>. Acessado em: 11 mai. 2005.

SANTOS, Wanderley Alves dos. Digitalização e manipulação da imagem aplicada na formação do professor de educação artística. Revista latinoamericana de tecnología educativa, Goiania, v.2, n. 1, 1997. Disponível em: <http://www.unex.es/didactica/RELATEC/Relatec_2_1/alves_2_1.pdf>. Acesso em: 14 mai 2005.

SILVEIRA, Maria de Lourdes da. Recuperação vertical de informação: Um estudo de caso na área jurídica. 2003. 134 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Minas Gerais, Minas Gerais, 2003. Disponível em: <http://www.ip.pbh.gov.br/revista0501/ip0501silveira.pdf>. Acessado em: 22 maio 2005.

SOURCEFORGE. ReHash - A console-based hash calculator. Disponível em: <http://rehash.sourceforge.net/rehash.html>. Acessado em: 22 jun. 2005.

SYMANTEC, Corporation. Symantec Security Response. Disponível em: <http://www.symantec.com/region/br/techsupp/avcenter/venc/data/pf/br-glossary.html >. Acesso em: 10 jun. 2005.

VICENTINI, Atílio; BLANCO, Regina Ap.. Análise dos padrões e indicadores de qualidade para disponibilização das teses e dissertações na biblioteca digital da UNICAMP: estudo do caso.[S.l.]. Disponível em: <http://164.41.122.20/publico/setores/000/77/materiais/2004/2/74/Regina%20A%20B%20Vicentini%20-%20An%C3%A1lise%20dos%20padr%C3%B5es.pdf>. Acessado em: 22 jun. 2005.

VIT, Antônio Rodrigo Delepiane de. ESCOP: Estratégia de suporte a solução cooperativa de problemas. 2000. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Rio Grande do Sul. Disponível em: <http://dinf.unicruz.edu.br/~revista/artigo2.pdf>. Acessado em: 1 jun. 2005.

WIVES, Leandro Krug. Tecnologias de descoberta de conhecimento em textos aplicadas à inteligência competitiva. Exame de qualificação: Instituto de Informática, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2002.

WIVES, Leandro Krug. Um estudo sobre técnicas de recuperação de informações com ênfase em informações textuais. Trabalho Individual I: Instituto de Informática, Universidade Federal do Rio Grande do Sul, Porto Alegre, 1997. Disponível em: <http://www.leandro.wives.nom.br/publicacoes/TI.pdf >. Acessado em: 1 jun. 2005.

YAHOO. Yahoo Brasil. 2005. Disponível em: < http://br.yahoo.com/>. Acessado em: 1 jun. 2005.

APÊNDICE A – RELATÓRIO DOS CENÁRIOS

UC AUL 01 - Cadastra Questionário REF 10 - Permitir ao professor criar um questionário para ser preenchido pelo aluno, no decorrer de uma aula. Scenarios 1- Seleciona a aula {Principal}. 2- Digita a questão {Principal}. 3- Digita a opção correta {Principal}. 4- Digite a opção errada {Principal}. 5- Mensagem "Questionário inserido" {Principal}. 1- Lista questões {Alternativo}. 2- Exclui a questão {Alternativo}. 3- Modifica questão {Alternativo}. UC AUL 02 - Relatório de Desempenho REF 12 - O Sistema deve fornecer ao professor um relatório com as respostas dos alunos. Scenarios 1- Seleciona Turmas {Principal}. 2- Visualiza Relatório {Principal}. 3- Conta número de acerto de cada aluno {Principal}. UC AUL 03 - Cadastra aula Scenarios 1- Digita dados {Principal}. 2- Cadastra dados da aula {Principal}. UC AUL 04 - Ministra aula REF 08 - Permitir que o professor utilize um documento para ministrar aula no laboratório de informática. Este documento pode ser visto em cada máquina do laboratório, conforme a máquina do professor, através de um mecanismo de sincronização. Scenarios 1- Seleciona aula {Principal}. 2- Inicia aula {Principal}. 3- Seleciona frase a ser comentada verbalmente {Principal}. 4- Envia para o servidor o identificador da frase selecionada {Principal}. 5- Fecha aula {Principal}.

77

UC AUL 05 - Assiste Aula REF 09 - Permitir ao aluno assistir a uma aula. Scenarios 1- Seleciona aulas conforme a turma {Principal}. 2- Abre documento {Principal}. 3 - Assiste aula {Principal}. 4- Busca no servidor a identificador da frase selecionada {Principal}. 5- Marca no documento a frase selecionada {Principal}. 6- Fecha aula {Principal}. UC AUL 06 - Responde questionário REF 11 - Permitir aos alunos responder ao questionário referente a uma aula. Scenarios 1 - Seleciona a questão {Principal}. 2 - Seleciona Turma que está cadastrado {Principal}. 3 - Seleciona Aula {Principal}. 4- Ordena as perguntas aleatoriamente {Principal}. 5- Ordena as opções aleatoriamente {Principal}. 6- Aluno responde a Questão {Principal}. UC AUL 07 - Cadastra Turma Scenarios 1- Digita dados {Principal}. 2 - Cadastra Dados da Turma { Principal }. UC AUL 09 - Altera a permissão do professor Scenarios 1 – Testa se o usuário tem nível de administrador {Principal}. 1 - Lista Membros {Principal}. 2 - Seleciona o Membro (usuário) {Principal}. 3 - Altera Permissão para Professor {Principal}. UC AUL 10 - Matricula em Turma Scenarios 1 - Lista Turmas cadastradas {Principal}. 2 - Seleciona Turma {Principal}. 3 - Solicita a Matricula {Principal}. 1 – Realiza sua exclusão de uma Turma {Exceção}.

78

UC AUL 11 - Lista Turma Scenarios 1 - Lista Turmas que é responsável {Principal}. 2 - Aceita alunos que solicitaram matricula {Principal}. 1 - Busca alunos {Alternativo}. 1 – Seleciona os alunos que compõem a aula {Alternativo}. 1 – Matricula os alunos selecionados {Alternativo}. 1 - Exclui alunos da turma {Exceção}. UC SRI 01 - Mecanismo de Consulta do SRI REF 01 - Sistema deve conter um método de busca de documentos, que permita consultar através de termos relevantes que constam no corpo do documento. Scenarios 1 - Usuário digita os termos da consulta {Principal}. 2 - Monta a consulta {Principal}. 3 - Sistema envia os termos da consulta para o SRI {Principal}. 4 - Retorna os documentos encontrados pelo SRI {Principal}. 5 - Ordena os documentos {Principal}. 6 - Usuário escolhe o documento de seu interesse {Principal}. 7 - Retorna do acervo o documento escolhido pelo usuário {Principal}. 1 -Sistema sugere uma nova consulta, através da comparação de termos {Alternativo }. 2 - Retorna para a etapa 2 (Principal) {Alternativo }. UC SRI 02 - Envia Documentos para o SRI REF 07 - Permitir ao professor enviar documentos diretamente para o acervo do SRI, permitindo que estes documentos sejam identificados pelo sistema de busca Scenarios 1 - Efetua login {Principal}. 2 - Insere Dados dos Campos de Identificação (Autor, titulo, Disciplina etc...) {Principal}. 3 - Anexa o documento a ser enviado {Principal}. 4 - Envia o arquivo para o servidor {Principal}. 5 - SRI retorna documento enviado {Principal}. 1- Alternativo (Editor documento através do Editor) {Alternativo}.

79

UC SRI 03 - Altera a permissão do professor REF 05 - Cadastrar os professores/usuários que utilizaram o sistema (dados pessoais, login e senha), para inserir documentos ou ministrar aulas. Scenarios 1- Inserir usuário {Principal}. 2- Insere login (matricula) do professor {Principal}. 3- Insere dados do professor {Principal}. 4- Envia dados {Principal}. 1- Modifica dados do professor {Alternativo }. 2- Exclui professor {Alternativo }. UC SRI 04 - Efetua login no sistema Scenarios 1- Usuário insere o seu login (matricula) {Principal }. 2 - Usuário insere a sua senha {Principal }. 3 - Sistema valida senha {Principal}. 1 - Retorna mensagem de "Senha ou login incorreto" {Exceção }. UC SRI 05 - Gerência da tabela de Stopwords REF 02 - Gerenciar (inserir/excluir) termos na tabela de Stopwords, para que o sistema de SRI possa identificar e reconhecer estes termos como irrelevantes nos documentos. Connections Scenarios 1- Lista as palavras a tabela de stopwords {Principal }. 1- Exclui palavra da tabela {Alternativo }. UC SRI 06 - Exclui documentos do Acervo REF 04 - Visualizar os documentos que estejam contidos no acervo. Excluir os documentos cujo conteúdo não seja relevante ou impróprio. Scenarios 1 - Busca documentos por professor e as turmas cujo é o responsável {Principal }. 2 - Seleciona o documento {Principal }. 3- Exclui o documento do acervo {Principal }. 1 - Filtra consulta por campo (data, disciplina) {Alternativo}.

80

UC SRI 07 - Gerência o Dicionário de Termos REF 03 - Gerenciar os termos do Dicionário de Termos. Observar se os mesmos são realmente relevantes. Caso este termo não seja relevante poderá ser adicionada na tabela de Stopwords. Scenarios 1- Lista termos relevantes {Principal}. 2- Marcas os termos não relevante {Principal}. 3- Seleciona opção de adicionar na tabela de stopwords {Principal}. 4- Adiciona o termo na tabela de stopwords {Principal}. 5- Apaga os termos selecionados encontrados no dicionário de termos {Principal}. 1- Selecionado a opção e excluir {Alternativo }. 2- Apaga os termos selecionados encontrados no dicionário de termos {Alternativo }. UC SRI 08 - Envia documentos para serem aprovados pelo Professor REF 06 - Permitir ao professore receber documentos dos alunos, se após avaliação do professor o documento é considerado relevante, poderá ser inserido no acervo do SRI. Scenarios 1- Informa dados do autor {Principal}. 2- Escolhe o professor que irá avaliar o documento {Principal}. 3 - Anexa o documento a ser enviado {Principal}. 4- Insere os dados do documento {Principal}. UC SRI 09 - Aprova documentos enviados pelos Alunos REF 06 - Permitir ao professor receber documentos dos alunos, se após avaliação do professor o mesmo for considerado relevante, poderá ser inserido no acervo do SRI. Scenarios 1 - Busca Documentos da Turma cujo professor é o responsável {Principal}. 1- Seleciona um documento {Exceção}. 2- Lista os documentos não avaliados pelo professor {Principal}. 3- Avalia os documentos {Principal}. 4- Envia documento para o SRI (UC SRI 02) {Principal}. 2 - Exclui documento do acervo {Exceção}.

81

APÊNDICE B – ANALISADOR LÉXICO DE SELEÇÃO DOS ENDEREÇOS

Será aplicado o analisador léxico de seleção dos endereços de páginas de internet, cujo

exemplo é página do CTTMAR, visualizado na Figura 42.

Figura 42. Página do CTTMAR

Na Figura 43, mostra-se a expressões regulares juntamente com o escopo do código,

desenvolvido em linguagem Delphi.

with PerlRegEx1 do begin RegEx :='href=\"(.)*\"'; //Expressão regular que verifica o padrão de existência de link Subject := pagina.text; while MatchAgain do resultado.lines.add (MatchedExpression); //Encontrar a expressão e adiciona em um arquivo RegEx :='(href=)|(\")'; // Expressão regular de limpeza do link Subject := resultado.text; while ReplaceAll do resultado.text:= Subject; end;

Figura 43. Código fonte do analisador léxico.

82

Como resultado do Código apresentado na Figura 43, obteve-se as informações exibidas na

Figura 44.

http://www.cttmar.univali.br/ http://www.univali.br/ http://www.univali.br/ http://www.cttmar.univali.br/ http://www.cttmar.univali.br/procurar.php http://www.cttmar.univali.br/cttmar/cttmar_det.php http://www.cttmar.univali.br/pessoas.php http://www.cttmar.univali.br/pesquisas.php http://www.cttmar.univali.br/cursos.php http://www.cttmar.univali.br/noticias.php http://www.cttmar.univali.br/infra.php http://www.cttmar.univali.br/servicos/servicos.php http://www.cttmar.univali.br/cttmar/cttmar_det.php http://www.cttmar.univali.br/english/english.php http://www.cttmar.univali.br/cttmar/direcao_det.php http://www.cttmar.univali.br/cttmar/organograma.php http://www.cttmar.univali.br/infra.php http://www.cttmar.univali.br/cttmar/premios_det.php http://www.cttmar.univali.br/cttmar/parcerias.php http://www.cttmar.univali.br/cttmar/publicacoes_lst.php http://www.univali.br/webmail http://sislab.cttmar.univali.br/ http://www.cttmar.univali.br/~tempo http://www.cttmar.univali.br/~eventos/ http://www.cttmar.univali.br/~bibcttmar/ http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=1 http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=2 http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=3 http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=4 http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=5 http://www.cttmar.univali.br/cursos/grad_princ_det.php?id_curso=6 http://www.cttmar.univali.br/cursos/pos_princ_det.php?id_curso=7 http://www.cttmar.univali.br/cursos/pos_princ_det.php?id_curso=24 http://www.cttmar.univali.br/formacao.php http://www.cttmar.univali.br/news/newscttmar.php?id_new=434&tipo=centro http://www.cttmar.univali.br/news/newscttmar.php?id_new=433&tipo=centro http://www.cttmar.univali.br/news/newscttmar.php?id_new=432&tipo=centro http://www.cttmar.univali.br/endereco.php http://www.cttmar.univali.br/contato.php http://www.cttmar.univali.br/restrito/logon.php http://www.cttmar.univali.br/mapasite.php http://www.cttmar.univali.br/copyright.php

Figura 44. Resultado do Analisador léxico.

APÊNDICE C – IDENTIFICAÇÃO DE TERMOS

Será aplicado o analisador léxico de seleção dos endereços de páginas de internet, cujo

exemplo é página do CTTMAR, visualizado Figura 45.

Figura 45. Página do CTTMAR – Para identificação de Termos

84

Na Figura 46, mostra-se a expressões regulares juntamente com o escopo do código,

desenvolvido em linguagem Delphi.

with PerlRegEx1 do begin //Expressão regular que verifica a existência de termos RegEx :='\>([^>^<]){4,256}\<'; Subject := memo1.text; while MatchAgain do pagina.lines.add(trim(MatchedExpression)); //Eliminação de múltiplos espaços e caracteres inválidos. RegEx :='(\>[â-zÂ-Z^0-9]{2,256}\<)|([ \t]{2,256})'; Subject := result.text; Replacement:=' '; while ReplaceAll do result.text:= Subject; //identificação de múltiplas quebra de linha. RegEx :='([\n\r]+)'; Subject := result.text; Replacement:='|'; while ReplaceAll do result.text:= Subject; //Eliminação de múltiplas quebra de linha. RegEx :='([\| ]{2,256})'; Subject := result.text; Replacement:='|'; while ReplaceAll do result.text:= Subject; //Formatação das quebra de Linha. RegEx :='([â-zÂ-Z^0-9][\|][â-zÂ-Z^0-9])'; Subject := result.text; Replacement:=#13#10; while ReplaceAll do result.text:= Subject; //Limpar o documentos RegEx :='([\|\>\<])'; Subject := result.text; Replacement:=' '; while ReplaceAll do result.text:= Subject; end;

Figura 46. Código fonte do identificador de termos.

Como resultado do Código apresentado na Figura 46, obteve-se as informações exibidas na

Figura 47. Nesta etapa, observa-se um grande número de termos inúteis, sendo estes eliminados

pela comparação com a tabela de stopwords.

CTTMar - ::: Centro de Ciências Tecnológicas da Terra e do Mar ::: function topo() { if (parent.frames[0]!=null) top.location.href = document.location; return (true) Procurar O CTTMar Pessoas Pesquisas Cursos Notícias Infra-Estrutura Serviços O CTTMar O CTTMar :: Sobre o CTTMar :: About CTTMar (english) ::

85

Direção :: Organograma :: Instalações :: Prêmios :: Parcerias :: Publicações Serviços :: Webmail :: Controle dos Laboratórios :: Previsão do Tempo :: Chamadas de Trabalhos :: Biblioteca Digital Cursos Graduação :: Biotecnologia :: Ciência da Computação :: Engenharia Ambiental :: Engenharia Civil :: Geografia :: Oceanografia Pós-graduação :: Mestrado em Ciência e Tecnologia Ambiental :: Especialização em Gestão Ambiental Formação Continuada :: Página da Seção Pedagógica do CTTMar Eventos Não existem dados para serem apresentados Notícias 11/02/2005 Curso incentiva conservação de peixes 25/01/2005 Pesquisadores recebem prêmio internacional 21/01/2005 Guia pioneiro orienta mergulhadores Endereço Fale Conosco Área Restrita Mapa do Site Ajuda Copyright © 2004 - Todos os direitos reservados.

Figura 47. Resultado com termos identificados.

86

APÊNDICE D – TABELA DE TERMOS INVÁLIDOS - STOPWORDS

Na Tabela 9, são listados alguns exemplos de termos a serem adicionadas na tabela de

stopwords.

Tabela 9. Termos irrelevantes

a acerca agora algumas alguns ali ambos amplo antes ao apontar aquela aquelas aquele aqueles aqui aquilo as atrás bem bom cada caminho cima com como comprido conhecido corrente da das de debaixo dele dentro desde desligado desse deste deve devem deverá direita diz dizer do dois dos e é ela ele eles em enquanto então entre es esse está estado estão estar estará este este estes esteve estive estivemos estiveram eu fará faz fazer fazia fez foi fora horas iniciar inicio ir irá isto isto ligado maioria maiorias mais mas mesmo meu muito muitos na não nas nesse nesta neste no nome nós nosso novo numa o obter onde os ou outro para parte pegar pelo pessoas pode poderá podia por porque povo primeiro qual qualquer quando quase que quem quieto saber são se sem ser seu somente su sua tal também tem têm tempo tenha tenho tentar tentaram tente tentei teu teve tipo tive todos trabalhar trabalho tu último um uma umas uns usa usar valor veja ver verdade verdadeiro via você

87

APÊNDICE E – FUNÇÃO MORFOLÓGICA

A Figura 48 mostra a função morfológica desenvolvida para este projeto com a finalidade de

redução morfológica. Esta função é utilizada no momento da análise do documento, e também nas

palavras da consulta realizada pelos usuários.

function morfologica($word) { //Substantivos terminados em "-r" ou "-z" $temp=ereg_replace('(res)$','r',$word); $temp=ereg_replace('(zes)$','z',$temp); //Substantivos terminados em "-al", "-el", "-ol", "ul". $temp=ereg_replace('(ais)$','al',$temp); $temp=ereg_replace('(eis)$','el',$temp); $temp=ereg_replace('(ois)$','ol',$temp); $temp=ereg_replace('(uis)$','ul',$temp); //Substantivos terminados em "-il". $temp=ereg_replace('(sseis)$','il',$temp); // Subs tantivos terminados em "-m". $temp=ereg_replace('(ns)$','m',$temp); // Substantivos terminados em "-ao". $temp=ereg_replace('(oes)$','ao',$temp); $temp=ereg_replace('(aes)$','ao ',$temp); // Substantivos terminados as "-a". $temp=ereg_replace('(as)$','a',$temp); $temp=ereg_replace('(es)$','e',$temp); $temp=ereg_replace('(is)$','i',$temp); $temp=ereg_replace('(os)$','o',$temp); $temp=ereg_replace('(us)$','u',$temp); // Substantivos terminados em "er". $temp=ereg_replace('(ar)$','a',$temp); $temp=ereg_replace('(er)$','e',$temp); $temp=ereg_replace('(ir)$','i',$temp); $temp=ereg_replace('(va)$','',$temp); $temp=ereg_replace('(ia)$','',$temp); $temp=ereg_replace('(ra)$','',$temp); $temp=ereg_replace('(ria)$','',$temp); $temp=ereg_replace('(sse)$','',$temp); $temp=ereg_replace('(ente)$','',$temp); //prefixo $temp=ereg_replace('(ânte)$','',$temp); $temp=ereg_replace('(ânti)$','',$temp); $temp=ereg_replace('(^pre-)$','',$temp); $temp=ereg_replace('(în)$','',$temp); return $temp; };

Figura 48. Função morfológica

88

APÊNDICE F – QUESTIONÁRIO DE VALIDAÇÃO

BIBLIOTECA DIGITAL APOIANDO O ENSINO INSTRUMENTO DE AVALIAÇÃO

Nome do Avaliador:_________________________________________________________

Ocupação: Aluno Professor

Este documento será utilizado para atender um dos objetivos específicos do Trabalho de

Conclusão do Curso de Ciências da Computação, realizado pelo acadêmico Rodrigo I.

Nunes e orientado pelo professor Gilberto Grandi.

Questões: Assinale com “X” na opção que desejar ou preencha comentário, na linha

posterior a pergunta.

1 – Como você classificaria a Biblioteca Digital quanto à dificuldade na navegação e utilização dos seus recursos?

Ruim Normal Boa

Comentários: 2 – O que você achou da apresentação visual da Biblioteca? Ruim Normal Boa

Comentários 3 – Os resultados obtidos no sistema de pesquisa se apresenta de forma clara?

Sim Não

Comentários: 4 – O questionário se apresenta de forma clara? Sim Não

Comentários: 5 – Ao assistir uma aula está fácil a sua visualização do texto e da frase selecionada pelo professor

Difícil Médio Fácil

Comentários: 6 – Você gostaria que seus melhores trabalhos fossem utilizados por outros alunos

Sim Não

Comentários: 7 – Você tem alguma sugestão para ser adicionado no sistema de Biblioteca

Sim Não

Comentários:

Figura 49. Questionário de validação

89

ANEXO I – ARTIGO


Rodrigo Irineu Nunes, Gilberto Grandi, Dr. [email protected], [email protected]

Ciência da computação – CTTMAR – Univali

Rua Uruguai, 458 – Centro – Itajaí - SC

RESUMO A informação digital associada ao ensino apresenta-se como alternativa aos modelos de ensino tradicionais, possibilitando um processo educacional independente de tempo ou lugar. No aspecto colaborativo, ainda promove através da formação de grupos de estudo, a troca de conhecimentos e a valorização das interações entre alunos, e entre alunos e professores. Entretanto, para que o modelo educacional seja completo é necessário um mecanismo que disponibilize os materiais didáticos e complementares. Nesse sentido, o presente projeto refere-se à criação e operação de uma biblioteca digital, desenvolvida para apoiar o ensino no Colégio de Aplicação da Univali. Têm como objetivos preservar a memória institucional e disponibilizar material didático gerado pelos professores e alunos, proporcionando maior visibilidade e acesso, através da Internet. Aborda um sistema de recuperação de informação onde permite um sistema de busca por campos (autor, título entre outros), e através de termos relevantes presentes nos textos. Palavras-chave: Bibliotecas Digitais. Recuperação da Informação. Informática na Educação.

ABSTRACT The digital information associated to the teaching, it is presented as alternative to the models of traditional teaching, turning possible an independent educational process of time and place. In the collaborative aspect, it is still promote, through the formation of study group, the change of knowledge and the valorization of interactions among students, and between students and teachers. However, it is necessary a mechanism that turns available the didactic materials and complements to the educational model is complete. In this way, the present project is referred to the creation and operation of a digital library, developed to support the teaching at Colégio de Aplicação da UNIVALI. The main objectives are to preserve the institutional memory and to turn available didactics material generated by teachers and students, providing a greater visibility and accessibility, through Internet. It approaches a recuperation system of information where allows a search system by fields (author, title among others), and through the present relevant terms in the texts. Keywords: Digital Library. Recuperation of Information. informatics in Education.

1. Introdução

Desde a criação da escrita até as tecnologias da informação dos dias de hoje, existe a

necessidade de armazenar e recuperar as informações já geradas. Pois a cada dia a base de

informação aumenta, sendo neste processo criadas novas informações e descartando outras. Esta

evolução constante da informação dificulta o processo de pesquisa, gera um dinamismo nas formas

90

de adquirir essas informações. Se tornado um desafio para os membros da sociedade conseguirem

avaliar e assimilar todas estas informações.

Para acompanhar essas evoluções as instituições de ensino também tiveram que evoluir

quanto ao seu processo de ensino. Para estarem adaptadas aos novos conhecimentos precisaram

criar novos métodos de ensino, tais como, atividades extra-classe, pesquisas, trabalhos de campo,

levantamento histórico e geográfico regional. Muitos destes conteúdos não estão documentados ou

presentes em bibliografias. Estas atividades realizadas por alunos e professores geram materiais

como, por exemplo: textos, tabelas, imagens, apresentações. A manutenção e reutilização dessas

matérias para uso futuro com outras turmas é uma tarefa difícil para os professores. Para isso, se

propôs a construção de um sistema com o objetivo de armazenar os documentos para que os

mesmos possam ser reutilizados futuramente.

Propõe-se solucionar o problema de armazenamento de conteúdos didáticos com o

desenvolvimento de uma Biblioteca Digital que é o resultado de um trabalho que busca identificar a

natureza do problema e resolvê-lo utilizando um Sistema de Recuperação de Informações (SRI).

2. Justificativa Neste artigo apresenta-se o desenvolvimento do projeto de uma Biblioteca Digital, que tem

como objetivo ser uma ferramenta de auxílio no processo de ensino. Sua principal característica é

de minimizar o trabalho ou re-trabalho de professores e alunos, por permitir a ambos armazenarem

e recuperem materiais de didáticos desenvolvidos na instituição. Juntamente com um sistema para

dar apoio ao professor, para que o mesmo possa ministrar aulas e verificar o aprendizado através de

questionários a serem respondidos pelos alunos.

3. Metodologia Para a fundamentação teórica deste trabalho foram realizadas pesquisas em livros, artigos,

publicações e entrevistas com profissionais que trabalham no ensino fundamental da UNIVALI.

Na realização do projeto efetuou-se um estudo através da Internet em sites de busca como o

Google, Yahoo, sites especializados em desenvolvimento como sourgeforge.net, php.net,

phpbrasil.com entre outros para pesquisar e avaliar soluções similares. A pesquisa se iniciou com a

busca de documentos que definam os métodos de recuperação de informação, bibliotecas digitais e

informática na educação. Para o desenvolvimento do sistema fez-se uso de ferramenta de Análise

Orientada a Objetos seguindo a notação UML e ferramenta de análise dos dados para fazer a

91

modelagem do banco de dados e para o dicionário de dados usou-se a ferramenta Power Designer.

No processo de implementação utilizou-se a linguagem para Web PHP versão 4.3 com acesso a

banco de dados MYSQL 3.5.

4. Sistemas de Recuperação de Informação “Os Sistemas de Recuperação de Informação (SRI) foram criados para facilitar o acesso à

informação em uma coleção de documentos digitais. Esses sistemas permitem organizar,

padronizar, indexar e recuperar informações sobre os documentos de uma coleção” (SILVEIRA,

2003, p. 133).

Em 1950 o termo “Recuperação de Informação” (RI), foi utilizado pela primeira vez em um

artigo cientifico, por Calvin Moores, sendo uma atividade que envolve os aspectos de descrição de

informação (indexação, padronização) e sua especificação para busca, além de qualquer técnica,

sistema ou máquina empregada para realizar ou auxiliar essas tarefas (WIVES, 2002, p. 23).

Atualmente, o SRI consiste na busca de documentos relevantes a uma dada consulta que

expressa a necessidade de informação do usuário. Esses documentos podem não apenas ser

informações textualizadas, mas serem sons, imagens, vídeos e outros tipos de dados (GONZALEZ;

LIMA, 2001). Uma representação simplificada do processo de recuperação de informação é

apresentada na Figura 1.

Figura 50. Representação do processo de recuperação de informação

Fonte: Adaptado de Ferneda (2003, p. 15).

Usuário

Função de Busca

Documentos

Representação de termos

Expressão de Busca

92

Um sistema de recuperação de informações só pode retornar informações relevantes para o

usuário. Isso porque informação relevante é aquela informação que o usuário necessita em

determinado momento para a realização de alguma tarefa, ou seja, ela deve estar no contexto que o

usuário deseja e no momento certo (WIVES, 2002, p. 25). No caso, do usuário solicitar informação

sobre “7 de setembro”, buscando informação sobre a data histórica. Tendo nenhuma relevância

neste momento o termo “Rua 7 de setembro”, pois assume que o usuário já conhece esta informação

e não a necessita.

Para que o SRI possa recuperar um documento e acessar as informações que constam no

mesmo, se faz necessário utilizar um método de recuperação. Este método utiliza-se de termos

relevantes que constam no corpo do documento para assim identificar os documentos que contenha

a informação desejada pelo usuário.

As etapas desenvolvidas neste projeto que compõem o SRI são: catalogação dos

documentos; Remoção de stopwords; Normalização morfológica; Indexação e estruturas de

armazenamento; Armazenamento do documento em Cache; e Busca e visualização.

1. Catalogação dos documentos

Essa é a primeira etapa de um SRI, sua única função é permitir que novos documentos sejam

adicionados no acervo através de formulário. Todos os documentos adicionados deveram ser

analisados nas etapas posteriores do SRI para que possam ser recuperados futuramente.

O sistema permite adicionar documentos do formato HTML, RTF e TXT, que podem ser

analisados através das palavras que constam no corpo do documento, mas o sistema poderá também

recuperar arquivos de imagens, sons, apresentações entre outros, através dos campos de

identificação do documento (Titulo, assunto, palavras-chaves, disciplinas).

Nesta etapa, não se fez nenhum controle de Direitos Autorais, devido ao sistema ser

utilizado inicialmente apenas pelo CAU.

2. Remoção de stopwords

As stopwords têm como finalidade auxiliar a estruturação da linguagem (tais como

conjunções e preposições) (WIVES, 2002, p. 52). Uma vez que elas são muito comuns, sua

presença não contribui significativamente para a determinação do conteúdo do documento

(SANTOS, 2002, p. 10). Estas palavras não devem fazer parte da estrutura de índice de palavras que

identifiquem o documento.

93

Neste sistema, utilizar-se-á uma tabela de stopwords, onde seus elementos são adicionados

manualmente. O algoritmo de remoção de stopword lê todo o texto à procura das palavras contidas

nesta tabela, removendo-as ao encontrá-las.

3. Normalização morfológica

As palavras dos documentos são escritas em linguagem natural, ou seja, uma palavra que

representa uma informação poderá variar em sua fonética, grau, gênero e número, sendo que mesmo

com a ocorrência desta variação a palavra ainda continua representando à mesma informação

original. Mas há inúmeras exceções na língua portuguesa que o sistema não consegue tratar como

exemplo as diferenças entre palavras que têm sentidos diferentes apenas mudando sua acentuação

ou a função que exerce na frase.

Na análise morfológica consiste na execução de diversas funções executada sobre o

documento que está sendo analisado. A primeira função executada é a retirada da acentuação e tags

de formatação, sendo que para cada formata do arquivo há uma função especifica que tratará a

especificação de tags e acentos. Como por exemplo, o HTML representa a letra “Ó” como

“Ó” e a “Í” como “Ì” já o RTF representa o “Ó” como “\'d3” e a letra “Í” como

“\'cc”.

A função seguinte consta da retirada dos sufixos, gêneros e graus. Isto é feito pela expressão

regular que faz a comparação direta da palavra com as regras de redução de radical (stemming)

desenvolvida que pode ser vista no apêndice E. Um exemplo de regra é a expressão regular

“(ais)[$]”, quando encontrada converterá para “al”, resultando a palavra manuais em manual.

A última função desta etapa é a procura pelo verbete mais similar. A função busca no

dicionário de verbetes a palavra que tiver o maior taxa de similaridade com a palavra original é

armazenada está na estrutura de índice.

No fim da etapa de normalização morfológica obtêm-se os termos de consulta, que são as

três formas da palavra (original, morfológica e verbete) que identificam o conteúdo de algum

documento que está armazenado no acervo. Estas três formas são adicionadas na estrutura de índice

desde que não sejam idênticas.

94

4. Indexação e estruturas de armazenamento

A próxima etapa é a construção do índice, que realizada através do processo de indexação.

Esta, consiste na criação de índice a qual permite que o sistema encontre rapidamente um

documento a partir de um conjunto de termos descritos pelo usuário. O índice pode ser

compreendido como uma espécie de filtro que é capaz de selecionar os documentos relevantes e

manter de fora os documentos irrelevantes.

O processo de indexação tem como função selecionar as palavras relevantes nos documentos

e armazenando na estrutura de índice. O índice é gerado por um método Hash chamado CRC32

(Cyclic Redundancy Checksum de 32-bit) da palavra, onde apenas é armazenado um valor numérico

que representa a palavra.

5. Armazenamento do documento em Cache

O documento em cache é equivalente ao documento original, mas não contêm as tags de

formatação do formato original do documento. A função deste arquivo é poder identificar e

visualizar as palavras próximas dos termos de consulta no momento da pré-visualização do

documento.

A escolha de utilizar um arquivo de cache foi devido à representação na estrutura de índice

de todas as palavras relevantes do documento, se tornado muito custosa, além desta representação

ocupar mais espaço em disco do que o arquivo original tornou as consultas mais lentas. Exemplo:

em um documento com 17000 palavras foram encontradas 9500 palavras relevantes, destas 8600

palavras foram adicionadas por serem verbetes ou geradas pela análise morfológica. No total foram

adicionadas 18100 palavras na estrutura de índice mais os outros campos de identificação. Já

utilizando o arquivo de cache mantêm as 17000 palavras em um arquivo externo, as 9500 palavras

relevantes foram reduzidas para 5300 palavras pois muitas eram repetidas, e foram encontradas

3300 verbetes ou gerados pela analise morfológicas, sendo armazenadas apenas 8600 palavras na

estrutura de índice.

6. Busca e visualização

A necessidade de informação do usuário é representada através de sua expressão de busca,

que pode ser especificada em linguagem natural e deve resultar na recuperação dos documentos que

95

possibilite a verificação de cada um deles a fim de selecionar os que são úteis (FERNEDA, 2003, p.

18).

Essa etapa consolida o SRI, é onde o usuário através de termos (palavras) de consulta busca

a informação (documento) que atenda sua necessidade. Todas as palavras fornecidas na consulta

passam pelos mesmos processos que os documentos.

Os documentos são visualizados em um ranking, adotando a seguinte ordem: 1) os

documentos que contêm os termos nos campos de identificação (titulo, assunto, autor, palavras-

chave); 2) Os documento que contêm todas as palavras; 3) os que contêm o maior números de

palavras por documento; e 4) os documentos que contenham algumas das palavras. No momento de

montagem do ranking é realizada uma pré-visualização do documento, assim permitindo ao usuário

identificação a relevância de cada documento.

5. Biblioteca Digital Este projeto trata da criação de uma biblioteca digital, que utiliza um sistema de SRI, para

que possa ordenar e localizar no acervo os documentos necessários para cada usuário. Mas na

criação desta biblioteca é necessária a construção de uma cultura que vai desde a definição de uma

política de trabalho, para digitalização de documentos até o modelo completo de uma biblioteca

digital (CUNHA, 1999, p. 258).

Na utilização de bibliotecas digitais permite a expansão dos horizontes do ensino e da

pesquisa, tornando praticamente ilimitada a liberdade dos educadores para indicar material

bibliográfico, sem a preocupação com conceitos como lugar e quantidade disponível (GONZALEZ;

POHLMANN FILHO; BORGES, 2000).

A questão da tecnologia aplicada ao ensino é uma discussão que coloca as pessoas ligadas à

educação em um dilema, ora existe tecnologia e os professores não sabem lidar com ela, ora os

professores sabem lidar, mas falta o suporte necessário para que se desenvolva, a contento, o seu

trabalho com o auxílio da tecnologia (SANTOS, 1997, p. 75).

As bibliotecas digitais, além das atividades oferecidas pelas bibliotecas tradicionais, têm

características próprias, conseqüências da opção digital, que possibilitam a otimização do uso das

tecnologias da informação agregando valores aos serviços oferecidos (CRUZ, 2004).

96

6. Planejamento de uma Biblioteca Digital Com base nas definições apresentadas por Marchiori (1997) e Cruz (2004), são identificadas

sete etapas que devem ser consideradas no planejamento da biblioteca digital:

1. Aquisição dos documentos

O processo de criação e captura dos documentos digitais envolve os processos de análise e

definição dos objetos a serem disponibilizados na biblioteca digital. Compreende a disponibilização

de um documento no formato digital e a transformação de um documento de formato não-digital

para o formato digital, utilizando ferramentas de edição de textos.

Segundo Dias (2002, p. 21), há disponível no mercado uma variedade de ferramentas

voltadas para a elaboração de textos, desde processadores de textos bastante populares como o

Microsoft Word até ferramentas mais simples para a elaboração de páginas HTML, tais como o

Composer, que faz parte do navegador Netscape.

No final desta etapa, têm-se a na transformação de documentos já capturados no formato

digital, para um formato padrão único, assim podendo ser indexado na base de dados.

2. Preservação e manutenção dos documentos

O armazenamento dos objetos digitais envolve sempre grandes e crescentes quantidades de

informação que devem ser preservadas indefinidamente. Para garantir a integridade dos documentos

e seus respectivos conteúdos é necessário: (i) definir a forma de armazenamento; (iii) gerenciar a

distribuição dos objetos digitais nos servidores; (iii) providenciar os backup, e (iv) garantir a

capacidade de incorporar novas tecnologias.

3. Recuperação da informação

Para a indexação dos documentos digitais é necessário utilizar-se uma padronização dos

termos ao inserir na base de dados que permita a recuperação e o acessar aos documentos. Para isso

deve-se: (i) implementar ferramentas que possibilitem além da busca de campos tradicionais como

autor, título, assunto, palavras-chaves, também a pesquisa no conteúdo dos documentos digitais, tais

como no texto completo e no conteúdo das imagens, entre outros; (ii) implementar ferramenta de

busca que possibilite a utilização da lógica booleana, linguagem natural , e (iii) técnicas de

inteligência artificial

4. Distribuição dos documentos

A distribuição dos documentos digitais necessita de uma infra-estrutura física de

comunicação que possibilite o acesso a todo conteúdo armazenado na base de dados, em tempo

integral.

97

5. Compartilhamento dos documentos

Prover mecanismos que possibilitam interligar as coleções de documentos entre bibliotecas,

de diversas instituições, através de documentos e comunicação padronizados.

6. Uso da biblioteca digital

Deve ser oferecido um treinamento para a utilização da biblioteca digital, que visa otimizar a

busca dos documentos. O treinamento deverá ser oferecido primeiramente para os tutores de sala e

em seguida para os alunos do curso. Mas deverá ter uma ajuda on-line para que o usuário possa por

si próprio apreender a utilizar a ferramenta.

7. Interação social

Estabelecer inicialmente o procedimento a ser adotado junto aos autores (professores

especialistas, pesquisadores e professores da Instituição), a fim de garantir que os documentos

sejam disponibilizados na biblioteca digital. Para isso, faz-se necessário desencadear normas para a

elaboração de um documento com as definições dos direitos autorais, visando à preservação tanto

da autoria quanto da instituição.

7. Biblioteca Digital em sala de aula Em uma biblioteca digital, podem ser disponibilizadas na mesma plataforma, apostilas,

livros, vídeos, sons e assim por diante. Permitindo ao professor e aluno não só buscar a informação

de forma integrada, como também produzir novos documentos. O professor deve incentivar e

monitorar as atividades de produção desses novos documentos, pois poderão ser disponibilizados

para pesquisas futuras, ao serem inseridos no acervo.

O sistema possui uma ferramenta de ajuda aos professores, pois permite a eles ministrarem

aulas no laboratório de informática através da utilização de documentos. Devido ao professor e

alunos estarem no mesmo ambiente físico, o sistema permite ao professor selecionar e explanar

verbalmente um parágrafo ou um fragmento da frase. As palavras que forem selecionadas pelo

professor serão vistas nas máquinas dos alunos com uma cor diferente, sendo que a informação

visualizada na tela será atualizada a cada 2 segundos.

8. Os Direitos Autorais Um dos problemas mais discutidos pelos desenvolvedores e pesquisadores das bibliotecas

digitais é a questão dos direitos autorais. Sem dificuldade nenhuma, um leitor/internauta pode

colocar uma obra, de sua autoria ou de terceiros, disponível a milhares de pessoas (DINIZ, 2005).

98

Assim criando uma relutância por parte dos autores em disponibilizar sua obra em um ambiente

com muitas facilidades para leitura, cópia e impressão das obras.

É difícil respeitar a legislação de direito autoral com material impresso e as copiadoras, esse

controle se torna praticamente impossível com a informação digital. Este é um dos fatores por que a

maioria das bibliotecas trabalha apenas com obras de domínio público (DINIZ, 2005).

9. Preservação dos documentos O foco principal de uma biblioteca digital é o documento eletrônico ou documento digital,

sendo todo registro gerado ou recebido por uma entidade pública ou privada, no desempenho de

suas atividades, armazenado e disponibilizado ou não, através de sistemas computacionais

(SANT’ANNA, 2005).

Na utilização do documento digital preservar o documento original, muitas vezes esse tem

valor histórico. Pois o usuário utiliza apenas uma copia digital. Mas uma questão importante a ser

levantada é a necessidades de preservação e garantia de autenticidade dos documentos digitais.

A preservação da informação deve ser considerada na implementação de uma biblioteca

digital. Apesar dos meios físicos de armazenamento (fita, cartucho digital, disco magnético e CD-

rom) comportar grande volume de informação, tem durabilidade em media de 10 a 20 anos. Os

meios de suporte tem uma constante obsolescência dos equipamentos e programas. Assim, à medida

que os sistemas computacionais são alterados, também os suportes que registram a informação

digital devem ser mudados (CUNHA, 1999, p. 265).

Deve-se garantir a geração de novos materiais, mantendo as informações atualizadas e

constantes no acervo. Esse investimento deve ser levado em consideração no momento de discutir

os direitos de uso e reuso dos objetos digitais, junto com a contratação de mão de obra técnica

especializada. Se não houver nenhum plano administrativo que cubra esses itens, nenhuma

manutenção do acervo em longo prazo será bem-sucedida (KEMPINAS, 2004, p. 5-8).

Uma característica importante do acervo é a capacidade de manter todas ou algumas

versões de um mesmo documento. Entretanto, em cada um deles será necessário acrescentar ou

apagar as hiperligações desses objetos. Esse problema poderá ser crucial num acervo jurídico, onde

a validade legal de direitos ou deveres deverá ser emanado a partir de um texto consolidado ou

aprovado por uma determinada autoridade (CUNHA, 1999, p. 265).

99

10. Conclusão

O projeto de uma Biblioteca Digital foi desenvolvido com o objetivo de ser uma ferramenta

que auxilia o processo de ensino voltado para as necessidades do colégio de Aplicação da Univali.

Ele exerce a função tradicional de uma biblioteca que é manter um acervo de documentos, mais

também permite que os profissionais da educação tenham nesta ferramenta uma ajuda no processo

de ensino através da informática, utilizando os recursos da ferramenta.

A ferramenta permite ao professor formar turmas de alunos e ministrar aulas em laboratórios

de informática através de documentos digitais, juntamente com um sistema de questionário para que

avaliar a aprendizagem dos alunos. Para ministrar aulas em laboratório desenvolveu-se uma

interação entre a máquina do professor e a dos alunos. O desenvolvimento desta integração se fez

através de técnicas utilizadas em sistemas de bate-papos, onde as máquinas conversam entre si

através de variáveis no servidor, buscando atualizações a cada intervalo de tempo, a finalidade desta

interação permite ao aluno visualizar o texto e o fragmento da frase a qual o professor gostaria de

dar ênfase. Através de uma interface o professor pode disponibilizar um texto e questões a serem

respondidas pelos alunos. Como o sistema é desenvolvido em ambiente WEB os alunos podem

responder o questionário em casa. O professor pode acompanhar quais alunos que já responderem e

quais os acertos que fizeram. Para cada aluno as perguntas podem ser diferentes visto que o sistema

sorteia as questões para cada um.

O aluno poderá interagir com a Biblioteca Digital, enviando documentos para o acervo, onde

o professor deverá incentivar a aprendizagem dos alunos através da pesquisa e criação de novos

documentos, assim também garantindo a expansão natural do acervo desta Biblioteca.

A estrutura do SRI desenvolvida se comporta eficazmente, pois mantêm o mínimo de

palavras na estrutura de índice, sendo que as palavras com varias ocorrência no documente, são

identificadas e contadas, e o texto é mantido integramente no formato original, e as palavras

identificadas como relevantes são mantidas em um arquivo de cache.

Acredita-se que com a implementação desta Biblioteca Digital ocorrerá um melhor

aproveitamento dos recursos digitais no processo de ensino do CAU, tanto na utilização da

biblioteca para armazenar os documentos quanto na utilização do laboratório para ministrar aulas e

questionários.

11. REFERÊNCIAS BIBLIOGRÁFICAS

CRUZ, Vilma Aparecida Gimenes da. Projeto de implantação e implementação da biblioteca digital da UNOPAR como suporte básico ao ensino a distância. Universidade Norte do Paraná, 2004. Disponível em: <http://www.abed.org.br/congresso2004/por/htm/152-TC-D2.htm>. Acesso em: 22 mai 2005.

CUNHA, Murilo Bastos da. Desafios na construção de uma biblioteca digital. Ciência da Informação, Brasilia, v. 28, n. 3, p. 255-266, 1999. Disponível em: <http://eprints.rclis.org/archive/00003707/01/Murilo_1999.pdf>. Acessado em: 11 jun. 2005.

DIAS, Guilherme Ataíde. Periódicos eletrônicos: Considerações relativas à aceitação deste recurso pelos usuários. Ciência da Informação, Brasília, v.31, n.3, p. 18-25. 2002. Disponível em: <http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=471&article=175&mode=pdf >. Acessado em: 11 mai. 2005.

DINIZ, Patrícia. Biblioteca do futuro: Sem paredes e barreiras físicas as bibliotecas ampliam suas fronteiras e democratizam a informação. 2005. Disponível em: <http://www.cg.org.br/gt/gtbv/artigo02.htm>. Acessado em: 23 mai. 2005.

FERNEDA, Edberto. Recuperação de informação: Análise sobre a contribuição da ciência da computação para a ciência da informação. 2003. 147 f. Tese (Doutorado em biblioteconomia e documentação) - Universidade de São Paulo, São Paulo, 2003. Disponível em: <http://www.teses.usp.br/teses/disponiveis/27/27143/tde-15032004-130230/publico/Tese.pdf>. Acessado em: 22 mai. 2005.

GONZALEZ, Marco; LIMA, Vera Lúcia Strube de. Recuperação de Informação e expansão automática de consulta com thesaurus: uma avaliação. In: CONFERÊNCIA LATINOAMERICANA DE INFORMÁTICA 27., 2001, Mérida Memórias.. [S.l.]: CLEI, 2001. v. 1. p. 1-10. Disponível em:<http://www.inf.pucrs.br/~gonzalez/docs/expanconsul.pdf>. Acessado em: 11 mai. 2005.

GONZALEZ, Marco; POHLMANN FILHO, Omer; BORGES, Karen Selbach. Informação digital no ensino presencial e no ensino a distância. Porto Alegre, 2001. Disponível em: <http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=525&article=236&mode=pdf >. Acessado em: 22 mai. 2005.

KEMPINAS, Ana Lucia de Grava. Implantação da biblioteca digital de teses e dissertações da Universidade Estadual Paulista - UNESP. In: SIMPÓSIO INTERNACIONAL DE BIBLIOTECAS DIGITAIS, 2. Anais... Campinas, 2004.

MARCHIORI, Patricia Zeni. “Ciberteca” ou biblioteca virtual: uma perspectiva de gerenciamento de recursos de informação. Ciência da Informação, Brasília, v.26, n.2, p. 115-124, maio/ago 1997. Disponível em: http://www.ibict.br/cienciadainformacao/include/getdoc.php?id=750&article=427&mode=pd. cessado em: 22 mai. 2005.

101



SILVEIRA, Maria de Lourdes da. Recuperação vertical de informação: Um estudo de caso na área jurídica. 2003. 134 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Minas Gerais, Minas Gerais, 2003. Disponível em: <http://www.ip.pbh.gov.br/revista0501/ip0501silveira.pdf>. Acessado em: 22 maio 2005.

WIVES, Leandro Krug. Tecnologias de descoberta de conhecimento em textos aplicadas à inteligência competitiva. Exame de qualificação: Instituto de Informática, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2002.

SANT’ANNA, Marcelo Leone. Os desafios da preservação de documentos públicos digitais. Fundação João Pinheiro, Belo Horizonte. Disponível em: <http://www.ip.pbh.gov.br/revista0302/ip0302santanna.pdf>. Acessado em: 1 jun. 2005.

Documents

UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS ...siaibib01.univali.br/pdf/Rodrigo Nunes.pdf · universidade do vale do itajaÍ centro de ciÊncias tecnolÓgicas da terra e do