curso_metadatos

Embed Size (px)

Citation preview

  • Metadatos y aplicacin en la descripcin de recursos

    Autor Javier Calzada Prado

    Tutor Esther Prez Delgado

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

  • Pgina 1

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Mdulo 1. Contextos y vas de acceso a la informacin digital

    1.1. Problemas asociados a la recuperacin en Internet

    Si la imprenta de tipos mviles supuso en el siglo XV el fin del monopolio intelectual de una lite, ha sido la red de redes la que ha revolucionado y democratizado de manera definitiva la difusin y el acceso a la informacin. Nunca antes haba sido tan fcil para cualquier ser humano comunicar un mensaje informativo de manera que pudiera ser recibido por un nmero potencial de receptores tan amplio. Esto ha potenciado el crecimiento exponencial de la Web, generando un vasto cuerpo de conocimiento al que, sin embargo, resulta imposible acceder en su totalidad o con la precisin necesaria. Los sistemas de recuperacin implementados hasta el momento (directorios y buscadores, principalmente), basados en tcnicas cuyo funcionamiento ha demostrado ser especialmente eficiente en sistemas de informacin finitos, resultan insuficientes (existe, ciertamente, una web invisible) frente al siempre cambiante, siempre inabarcable espacio informativo de la red.

    Se han propuesto varias metforas para describir dicho espacio, entre ellas la metfora de las islas y archipilagos de informacin. La metfora de las islas de informacin, utilizada desde hace tiempo (por ejemplo, por Atherton en 2002 en el proyecto britnico Seamless UK), se refiere al hecho de que en la web existan espacios informativos, generalmente organizados en forma de sistemas de informacin, que se encuentran aislados entre s, lo que limita la capacidad de recuperacin de informacin.

    En la actualidad, la principal tendencia es precisamente afrontar el problema de abajo a arriba, es decir, empezando por crear islas, espacios limitados en los que los recursos estn organizados y controlados para, en la medida de lo posible, ir aumentando la red y el tamao de dichas islas as como sus interconexiones para, finalmente crear espacios informativos conectados cada vez ms amplios que posibiliten la implementacin de servicios de informacin digital para la Sociedad del Conocimiento.

    La clave de este proceso radica en el desarrollo de un conjunto de estndares que regulen todos los aspectos implicados en l, entre los que se encuentran los estndares de metadatos como va para la ptima descripcin de recursos.

    1.2. Repositorios y bibliotecas digitales. Concepto y diferenciacin

    Desde que se empez a hablar de ellas a principios de los aos noventa, han aparecido numerosas definiciones de biblioteca digital. A partir de un detallado anlisis de las mismas, Borgman (1999) diferenci dos mbitos de procedencia:

  • Pgina 2

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Las definiciones procedentes del mbito bibliotecario, que enfatizan el papel de los servicios a los usuarios.

    Las procedentes del mbito informtico, que ponen su nfasis en el almacenamiento y acceso a los contenidos.

    De este doble origen se deriva una doble concepcin de biblioteca digital:

    La biblioteca digital entendida como extensin o evolucin de la biblioteca tradicional. Comprende definiciones stricto sensu como las de la Digital Library Federation (DLF, 1998), la UNESCO Digital Library Taskforce.

    La biblioteca digital entendida como simple almacn o base de datos. Sera, por tanto, la ms cercana al concepto de repositorio, y comprende definiciones lato sensu como la del IMS.

    En las diferentes definiciones se identifican cuatro dimensiones, que conforman la concepcin actual de biblioteca digital:

    1. Comunidad. Referida al contexto social, poltico, legal y cultural en que se desarrolla la biblioteca digital.

    2. Tecnologa. Considerada el motor de la biblioteca digital, del avance en su desarrollo depende el desarrollo de las potencialidades de la biblioteca digital.

    3. Contenido. Referida a cualquier tipo de documentos, tanto digitales como no digitales (lo que alude al concepto de biblioteca hbrida).

    4. Servicios. El diseo de formas de acceso adecuadas representa la finalidad ltima de la biblioteca digital, que en el futuro deber facilitar servicios de referencia digital, respuesta en tiempo real, alfabetizacin informacional, etc.

    Entre las instituciones que han promovido su desarrollo se encuentran:

    Digital Library Initiative (DLI). Financiada por el gobierno de EE. UU. e iniciada en 1994, actualmente se encuentra en su segunda fase.

    Digital Library Federation (DLF). Consorcio de instituciones estadounidenses, principalmente acadmicas. Iniciada en 1995.

    DELOS Network of Excellence on Digital Libraries. Financiada por la Comisin Europea e iniciada en 2004. Fin previsto: 2008.

    Online Computer Library Center (OCLC). Entidad sin nimo de lucro estadounidense fundada en 1967 que ha desarrollado varios proyectos relacionados con bibliotecas digitales.

  • Pgina 3

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Joint Information Systems Committee (JISC). Organizacin creada en 1993 para el desarrollo de TIC en Educacin.1.3. Bibliografa

    ATHERTON, L. (2002). Seamless UK: building bridges between information islands. New Library World, vol. 103, n. 11/12, p. 467-474.

    BORGMAN, C. L. (1999). What are digital libraries? Competing visions. Information Processing and Management, vol. 35, n. 3, p. 227-243.

    DLF (Digital Library Federation) (1998). A working definition of digital library [en lnea]. [Consulta: 22 de febrero de 2007]. Disponible en: .

  • Pgina 4

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Mdulo 2. El papel de la descripcin: qu son los metadatos?

    2.1. Definicin y conceptos bsicos

    Al hablar de metadatos, la primera, ms intuitiva y a la vez ya casi manida idea que se nos suele presentar es la de datos sobre datos, trada de su etimologa (del griego meta, ms all, que en Informtica denota sobre y el latn datum, que en su acepcin actual recogida en el DRAE se relaciona con documento o informacin tratable mediante ordenadores, esto es, digital). Sin embargo, si bien esta definicin sirvi para popularizar el trmino desde mediados de los aos 90, hoy no resulta ya especialmente til -ms all del contacto inicial- ni estrictamente vlida. Greenberg (2003) aporta una definicin que consideramos ms completa: metadatos son datos estructurados sobre un objeto, que soportan funciones asociadas al objeto designado. Con esta definicin, la autora quiere destacar tres aspectos relevantes: 1) la estructuracin de los datos conforme a unas normas (que se denominan esquemas de metadatos), 2) la referencia de esos datos estructurados a un objeto, que puede ser tanto fsico como lgico (digital), al que se suele hacer referencia como DLO (Document Like Object u objeto asimilable a un documento) y 3) la finalidad de los metadatos, que no es otra que contribuir a que la funcin primordial del documento, que es la comunicacin del mensaje informativo que le dio origen (Rodrguez Bravo, 2002), sea desempeada de manera ptima a travs de los procesos de recuperacin de informacin.

    El trmino metadatos, que se emplea como tal en el mbito informtico desde los aos 80 (Caplan, 2003, p.1), ha suscitado en la ltima dcada el inters de los profesionales de la Documentacin. Diversos autores, entre ellos Lancaster (2002, p. xi), han criticado el entusiasmo de stos con los metadatos, entendiendo que no es sino un trmino de moda, trado de la mano de otras disciplinas, y que hace referencia a tcnicas clsicas de las Ciencias Documentales: la descripcin formal y de contenido. Sin embargo, el propio Lancaster reconoce que con la adopcin del nuevo trmino se quiere atender a una realidad, la de los contenidos digitales en red, que comporta una complejidad que quiz supera los lmites tradicionalmente asignados a la descripcin bibliogrfica (Lancaster, 2002, p. 346). De hecho, cuando se habla de metadatos se suele sobreentender que se est haciendo referencia a la descripcin de recursos de informacin, es decir, documentos digitales.

    2.1.1. Registros y esquemas de metadatos

    De esta manera, podemos definir los metadatos como descripciones normalizadas de recursos que sirven para que stos puedan ser correctamente identificados y recuperados en sistemas de informacin digital (SID).

  • Pgina 5

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Formalmente, los metadatos adoptan la forma de registros (en ingls, metadata records), que presentan secuencias de pares atributo - valor". Los atributos son las caractersticas o propiedades genricas de una clase de objetos que se han de representar, mientras que los valores son propios y distintivos de cada recurso. As, por ejemplo, para un sitio web se pueden identificar como atributos bsicos: nombre o ttulo, autor, fecha, localizacin y tema. En un caso concreto, tomara los siguientes valores:

    Atributos Valores

    Nombre o ttulo Sitio web de la Universidad Carlos III de Madrid

    Autor Universidad Carlos III de Madrid

    Fecha o fecha de actualizacin

    2007

    Localizacin (URL) http://www.uc3m.es

    Tema Educacin Superior, Universidades, Madrid

    En la prctica, los atributos constituyen elementos de los esquemas de metadatos, y los valores asignables a los recursos descritos pueden ser bien de libre asignacin o bien ser tomados de listas de valores o vocabularios controlados.

    Los registros de metadatos se realizan de acuerdo a modelos descriptivos de referencia denominados esquemas de metadatos (en ingls, metadata scheme). Existen mltiples esquemas de metadatos, en funcin del tipo de recursos que describan, si bien uno de los de mayor difusin es el Dublin Core Metadata Element Set (DCMES), que trataremos en detalle ms adelante. Un esquema de metadatos se puede definir como el conjunto de reglas y elementos que constituyen un modelo de metadatos. Los esquemas determinan tanto la sintaxis como la semntica. Respecto a la sintaxis, establecen los elementos y orden en que habrn de disponerse stos as como el formato de etiquetado o codificado de los metadatos. En cuanto a la semntica, ofrecen recomendaciones de uso de los elementos, de vocabularios especializados o acepciones especficas de trminos en determinados dominios (es el caso de los perfiles de aplicacin). En un esquema de metadatos se recogen, en definitiva, cules son las caractersticas ms representativas de los objetos que trata de describir as como la forma de elaborar los registros de metadatos correspondientes.

  • Pgina 6

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    2.1.2. Descripcin mediante metadatos

    La descripcin de fgbxdfbhfgbndhrecursos mediante metadatos se puede realizar de dos maneras: una interna, mediante su integracin en el cdigo fuente del recurso (en ingls este tipo se denomina embedded metadata), y otra externa (stand-alone metadata), bien mediante la utilizacin de los elementos de descripcin en un archivo HTML o XML independiente o bien como campos de una base de datos que mantiene un enlace al documento descrito.

    Un ejemplo de metadatos internos lo encontramos en el propio sitio web de la Iniciativa Dublin Core de Metadatos (http://dublincore.org/). Si visualizamos su cdigo fuente (Ver > Cdigo fuente), podremos acceder al registro de metadatos correspondiente, realizado segn el esquema DC.

  • Pgina 7

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Un ejemplo de metadatos externos lo encontramos, por ejemplo, en el repositorio de contenidos educativos MERLOT. En l se observa que los registros de metadatos han servido para disear la base de datos que constituye el repositorio, de manera que los atributos se han convertido en campos de la base para posibilitar la bsqueda de recursos en funcin de los valores asignados previamente. As, en el ejemplo seleccionado, Visual Chemistry Laboratory, se recogen caractersticas como el tipo de material de que se trata, su formato, su coste de uso, fecha, autor, categora temtica, etc. Asimismo, recoge un enlace al recurso descrito.

  • Pgina 8

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

  • Pgina 9

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    La utilizacin de uno u otro tipo de metadatos suele depender de la naturaleza de los recursos y del uso que se pretenda hacer de los mismos. Los metadatos internos se suelen generar en el momento de creacin de los recursos (como en el caso del fichero de audio que se muestra ms abajo); por su parte, en los externos stos se generan con posterioridad, y, en el caso de metadatos aplicados al diseo de bases de datos se suelen emplear para dar acceso a recursos ajenos, no modificables, mientras que los externos anejos a los recursos en archivos independientes se suelen emplear en el intercambio de registros (un ejemplo lo veremos ms adelante con los paquetes de contenidos SCORM).

  • Pgina 10

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

  • Pgina 11

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    2.2. Tipos de metadatos

    Actualmente existe una gran diversidad en el campo de los metadatos, por lo que no es fcil realizar una clasificacin de los mismos. Se suelen mencionar, entre otros, criterios como su origen (humanos o automticos), forma (internos o externos), estructuracin (de libre asignacin o estructurados en funcin de un esquema concreto), nivel de descripcin (colecciones o recursos) o funcionalidad (administrativos, descriptivos, etc.), si bien ninguno de ellos nos puede ofrecer sino una aproximacin parcial.

    En general, podemos decir que los recursos informativos poseen tres aspectos fundamentales que pueden ser representados (descritos) mediante metadatos (Gilliland-Swetland, 2000):

    Su contenido: su mensaje informativo.

  • Pgina 12

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Su contexto: los agentes y circunstancias de creacin del recurso. Su estructura: relaciones existentes entre recursos o partes de recursos

    entre s.

    Sin embargo, adems de los metadatos referentes al recurso en s, hay otros tipos de metadatos que son necesarios para la gestin de recursos en sistemas de informacin. Desde que un recurso es incorporado a un SID, pasa por diversos momentos (vase debajo el grfico que representa el ciclo de vida de los documentos) en los que intervienen diversos agentes y procesos, tanto manuales como automatizados, que van agregando capas de metadatos relativos a dicho objeto. As, en un primer momento, se le aaden datos relativos a su entrada en el sistema (fecha, responsable, etc.), su estado (si es original o versin de otro documento) y elementos pertinentes de descripcin (autora, fecha, indizacin o categorizacin temtica, derechos de autor asociados al recurso, etc.). Posteriormente, y a medida que el recurso es recuperado o modificado, se van incorporando o actualizando los datos que componen el registro de metadatos. As, suele ser necesario actualizar peridicamente los datos de localizacin del recurso (en caso de que el recurso no cuente con DOI o sistema de identificacin similar) o recoger informacin sobre el uso que ha recibido (nmero y tipo de usuarios que lo han utilizado, anotaciones o valoraciones que han realizado stos, contextos en los que se ha empleado -en relacin a la gestin de derechos de autor, etc.).

    2.2.1. Clasificacin de Gilliland-Swetland

    Una de las clasificaciones ms aceptadas de los distintos tipos de metadatos implicados es la de Gilliland-Swetland (2000), que atendiendo a su funcin distingue:

    Tipo Uso Ejemplos

    Administrativos Se emplean en la gestin de los recursos en sistemas de informacin

    Informacin sobre la adquisicin del recurso

    Registro de derechos de

  • Pgina 13

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    autor

    Documentacin de requisitos legales de acceso

    Informacin sobre la localizacin del recurso

    Criterios de seleccin para la digitalizacin

    Control y diferenciacin de versiones

    Descriptivos

    Se utilizan para identificar recursos y representar su contenido informativo

    Registros catalogrficos Ayudas en las bsquedas ndices especializados Hiperenlaces entre recursos Anotaciones de usuarios

    De conservacin

    Recogen informacin relevante para la gestin de la conservacin de los recursos

    Documentacin del estado de conservacin de los recursos

    Documentacin de las acciones necesarias para preservar las versiones tanto fsicas como digitales de los recursos

    Tcnicos

    Recogen las caractersticas tcnicas del recurso y los sistemas necesarios para su utilizacin

    Documentacin de hardware y software requeridos

    Informacin sobre la digitalizacin (formato, ratio de compresin, etc.)

    Datos de autenticacin y seguridad (claves, cdigos de encriptacin, etc.)

    De uso Se emplean para determinar el tipo y nivel

    Registro de usuarios y del uso que hacen de los

  • Pgina 14

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    de uso de los recursos recursos

    Registro de los contextos de reutilizacin

    2.2.2. Clasificacin de Caplan

    Caplan (2003), por su parte, considera los siguientes tipos:

    Tipo Funcin/subtipo Descripcin

    Recuperacin Facilitan encontrar recursos pertinentes

    Identificacin Facilitan la individualizacin y distincin entre recursos similares

    Seleccin

    Permiten determinar cules son los recursos que mejor responden a una necesidad de informacin concreta

    Colocacin Permiten agrupar recursos

    AdquisicinPermiten localizar el recurso o una copia del mismo

    Evaluacin

    Proporcionan valoraciones de los recursos, bien de los autores de los recursos o registros de metadatos o bien de los usuarios

    Relacin

    Permiten registrar las relaciones existentes entre los recursos descritos y otras versiones o recursos

    Descriptivos

    Usabilidad Recogen informacin sobre las caractersticas tcnicas del

  • Pgina 15

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    recurso que facilitan su uso

    Gestin de derechos Recogen las condiciones de uso del recurso en funcin de la proteccin de derechos de autor

    Preservacin Permiten conocer el estado de los recursos y sus requisitos de preservacin

    Administrativos

    Tcnicos Recogen las caractersticas tcnicas de los recursos tales como formato, duracin, etc.

    Estructurales Vinculacin

    Permiten registrar las relaciones existentes entre las partes componentes de los recursos descritos

    2.2.3. Tipos de metadatos (a efectos prcticos)

    En la prctica, se observa que la mayor parte de los esquemas de metadatos recogen informacin relativa a la mayora de los tipos mencionados, si bien el tratamiento (nivel de detalle o anlisis) que reciben en cada caso es diferente, en funcin del tipo de recursos que traten de describir.

    A la vista de las aportaciones reseadas, cabr distinguir, a efectos prcticos, los siguientes tipos de metadatos:

    Metadatos relativos a la gestin de recursos en SID

    Adquisicin Datos de incorporacin del recurso al SID (identificador, fecha de incorporacin en el SID, responsable, etc.)

    Tcnicos Caractersticas tcnicas del recurso (formato, extensin, etc.)

    Administrativos

    Gestin de derechos

    Restricciones de uso en virtud de los derechos de autor asociados (materiales protegidos, adquisicin del licencias, etc.)

  • Pgina 16

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Preservacin Estado de los recursos y sus requisitos de preservacin

    Metadatos relativos a los recursos

    Identificacin Datos bsicos de identificacin del recurso (autor, ttulo o nombre, fecha de creacin o actualizacin, etc.)

    Representacin Palabras clave, descriptores o clasificacin temtica del recurso

    Descriptivos

    Relacin Vnculos entre partes componentes de un recurso, versiones y otros recursos relacionados

    Metadatos relativos al uso de los recursos

    Registro de usuarios

    Nmero, tipo y nivel de usuarios que acceden al recurso

    De uso

    Valoracin Anotaciones realizadas por los usuarios respecto al recurso

    2.3. Bibliografa

    CAPLAN, P. (2003). Metadata basics. En: CAPLAN, P. Metadata Fundamentals for All Librarians. Chicago: American Library Association, p. 116-128.

    GILLILAND-SWETLAND, A. J. (2000). Introduction to Metadata: Setting the Stage [en lnea]. En: BACA, M. (ed.). Introduction to metadata: pathways to digital information. Los Angeles: Getty Information Institute, p. 1-8. Disponible en: http://www.getty.edu/research/conducting_research/standards/intrometadata/setting.pdf.

    GREENBERG, J. (2003). Metadata and the world wide web. En: BATES, M. J.; MAACK, M. N. y DRAKE, M. (eds.). Encyclopedia of Library and Information Science. New York: Dekker, p. 1876-1888.

    RODRGUEZ BRAVO, B. (2002). El documento: entre la tradicin y la renovacin. Gijn: Trea

    LANCASTER, F. W. (2003). Indexing and abstracting in theory and practice.

  • Pgina 17

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    London: Facet. ISBN 1856044823.

    Bibliografa bsica en castellano

    BACA, M. (ed.) (1999). Introduccin a los metadatos: vas a la informacin digital. Los ngeles: J. Paul Getty Trust. ISBN ISBN 0892365358

    MNDEZ RODRGUEZ, E. M. (2002). Metadatos y recuperacin de informacin: estndares, problemas y aplicabilidad en bibliotecas digitales. Gijn: Trea

  • Pgina 18

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Mdulo 3. Interoperabilidad y estndares

    3.1. Concepto y tipos de interoperabilidad

    Sealbamos en la primera leccin la necesidad de integracin de los sistemas y servicios de informacin digital. Pues bien, esta integracin pasa por hacer posible su capacidad de trabajar de forma conjunta, a lo cual se denomina genricamente interoperabilidad. El concepto de interoperabilidad es un concepto complejo, que se aplica en mltiples contextos, referido desde, por ejemplo, la posibilidad de utilizar un dispositivo como una memoria USB (pendrive) y los datos que en l se almacenan en diversas mquinas con diferentes configuraciones (sistemas operativos, etc.), a la posibilidad de realizar bsquedas simultneas en varios catlogos de bibliotecas (lo que se conoce como bsqueda federada o federated search). En relacin a los metadatos, el objetivo primordial es precisamente hacer posible que recursos que han sido descritos mediante diferentes esquemas puedan ser recuperados ms all de los diferentes sistemas locales en que se generaron dichas descripciones. Para ello, ser necesario que los metadatos se hagan conforme a estndares o conformable a estndares de uso comn en su mbito de aplicacin.

    Desde el punto de vista tecnolgico, la interoperabilidad se define como la capacidad de dos o ms sistemas o componentes para intercambiar informacin y usar la informacin que han intercambiado (IEEE, 1990).

    Desde el punto de vista del diseo de sistemas de informacin, la interoperabilidad se entiende como la labor de construir servicios coherentes para usuarios cuando los componentes individuales son tcnicamente diferentes y estn gestionados por diferentes organizaciones (Arms, 2000).

    La interoperabilidad se manifiesta, por tanto en (Borgman, 2000):

    La capacidad de los sistemas para trabajar entre s en tiempo real. La capacidad del software para trabajar en diferentes sistemas. La capacidad de los datos para ser intercambiados entre diferentes sistemas

    (portabilidad).

    Para ello, se ha de potenciar el desarrollo de (Arms, 2000):

    Formatos estandarizados de documentos. Formatos estandarizados de metadatos. Formatos estandarizados de protocolos de comunicacin y recuperacin. Medios estandarizados de autenticacin y seguridad.

  • Pgina 19

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    3.1.1. Tipos de interoperabilidad

    En relacin a los metadatos, se diferencian dos tipos de interoperabilidad: la interoperabilidad sintctica y la interoperabilidad semntica. La primera hace referencia a la interoperabilidad basada en la utilizacin de formatos estandarizados de codificacin de documentos (formatos como XML y RDF, que veremos ms adelante), mientras que la segunda hace referencia a la utilizacin de instrumentos de representacin semntica estandarizados (esquemas, ontologas y vocabularios).

    Un concepto relevante a la hora de hablar de interoperabilidad semntica es el concepto de crosswalks (pasarelas o tablas de correspondencia). La DCMI define crosswalk como una tabla que mapea las relaciones y equivalencias entre dos o ms esquemas de metadatos (Woodley, 2003). Se trata, pues, de buscar correspondencias entre los elementos de al menos dos esquemas, identificando las coincidencias en la semntica que intentan representar los distintos elementos, con la finalidad de que dos o ms sistemas de informacin que utilizan esquemas descriptivos distintos logren alcanzar el mximo grado de interoperabilidad entre s. Un ejemplo de crosswalk sera, por ejemplo, el realizado por la Biblioteca del Congreso de los Estados Unidos entre el esquema Dublin Core y el formato MARC que se presenta a continuacin (tomado de http://www.loc.gov/marc/marc2dc.html):

    Elementos DC Campos MARC

    Title 245

    100, 110, 111, 700, 710, 711 Creator

    720

    Subject 600, 610, 611, 630, 650, 653

    Description 500-599, excepto 506, 530, 540, 546

    Contributor

    Publisher 260$a$b

    Date 260$c

    Type Leader06, Leader07

  • Pgina 20

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    655

    Format 856$q

    Identifier 856$u

    Source 786$o$t

    008/35-37 Language

    546

    Relation 530, 760-787$o$t

    651 Coverage

    752

    Rights 506, 540

    Fig. 1: Mapeo DC-MARC realizado por la Library of Congress

    Al proceso de conversin (de alguna manera, traduccin) entre esquemas distintos del que se derivan los crosswalks se denomina mapeo (mapping). Obviamente, este proceso no est exento de dificultades, ya que, como seala Cromwell-Kessler (Baca, 1999:22) algunas de las cuestiones ms difciles de resolver pueden ser, entre otras:

    La existencia de dos o ms conceptos que puedan estar representados por un nico elemento en el otro esquema con el que se quiere realizar el mapeado (target scheme).

    La existencia de informacin que en un esquema se encuentra consignada en elementos tipo notas y que en el esquema de destino est recogida en elementos especficos.

    Que no existan equivalencias para determinados elementos.

    3.2. Estndares: identificacin y localizacin (DOI, URI, PURL)

    La normalizacin de las formas de identificacin y localizacin de recursos digitales

  • Pgina 21

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    trata de proporcionar estabilidad a los mismos. Por su especial implicacin en en desarrollo de metadatos, trataremos, al menos brevemente, tres de los principales estndares: DOI, URI y PURL.

    DOI (Digital Object Identifier)

    Definido por el estndar NISO Z39.84: DOI Syntax, que fue desarrollado por dos asociaciones de editores estadounidenses, el DOI trata de proporcionar enlaces permanentes a los recursos a los que se refiere. Cada cdigo de identificacin de un recurso est registrado en un directorio global gestionado por la International DOI Foundation (www.doi.org). Dicho registro deber ser actualizado en funcin de los distintos cambios de ubicacin que experimenten los recursos.

    Cada DOI est compuesto por un prefijo, que es un cdigo asignado a cada organizacin que lo solicite, y un sufijo, que puede ser un identificador preexistente (por ejemplo, el ISBN) u otro creado ad hoc. Ejemplos de DOI seran:

    10.1234/NP5678 10.5678/ISBN-0-7645-4889-4 10.2224/2004-10-ISO-DOI

    URI (Universal Resource Identifier)

    El URI es una cadena de caracteres que identifican a un recurso en la red. El tipo de URI ms habitual es el ya ms que conocido URL (Uniform Resource Locator), que especifica el protocolo de comunicacin (http, ftp, gopher, etc.) y la ubicacin del recurso.

    PURL (Persistent Uniform Resource Locator)

    Similar al DOI, fue desarrollado por la OCLC (http://www.purl.org/). Se trata de una URL referida a un recurso que apunta no al recurso en s directamente, sino a un servicio intermedio que gestiona los cambios de ubicacin de los recursos, redireccionando al usuario a la ltima ubicacin registrada para dicho recurso. Una forma tpica de PURL sera: http://purl.oclc.org/OCLC/PURL/FAQ.

    3.3. Estndares: lenguajes de marcado (HTML, XML, RDF)

    En esta seccin realizaremos una breve aproximacin a los lenguajes de marcado, exponiendo sus principales conceptos y aportaciones, pero sin entrar en el procedimiento de codificacin en s, que excedera los lmites del presente curso.

    Los estndares de codificacin ms relevantes para el tema que nos ocupa son:

    HTML (HyperText Markup Language) XML (Extensible Markup Language)

  • Pgina 22

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    RDF (Resource Description Framework)

    3.3.1. HTML (hyperText Markup Language)

    Este lenguaje de codificacin, nacido a principios de los aos 90, es una simplificacin de un lenguaje mucho ms complejo denominado SGML (Standard Generalized Markup Language). HMTL es un estndar (vase el documento en que se describe su estructura bsica: http://www.w3.org/TR/REC-html40/struct/global.html#h-7.4.4.2) que trata de facilitar la publicacin de contenidos en la web mediante su codificacin con etiquetas (tags). Sus principales ventajas son que, al igual que su predecesor SGML, HTML es un formato no propietrario (no depende de una empresa concreta) y que es independiente de plataformas hardware o software especficas, lo que facilita el intercambio de informacin en sistemas distribuidos. Su principal limitacin radica en su falta de capacidad expresiva, ya que el nmero de marcas que se pueden utilizar en la codificacin de un documento est limitado a las que se han predefinido en el estndar, orientadas adems en su mayora a aspectos relativos a la presentacin de los documentos y no a su contenido. Sin embargo, hoy da HTML sigue siendo el lenguaje ms comnmente utilizado para la publicacin de documentos en la Web, en gran medida debido a su sencillez de uso para usuarios no expertos.

    3.3.2. XML (extensible Markup Language)

    Desde su primera aparicin pblica en el ao 1996, XML ha sido protagonista destacado del desarrollo de aplicaciones y servicios para la web. A medio camino entre la simplicidad de HTML y la expresividad de SGML, se trata de un estndar desarrollado por el Consorcio Web (W3C o World Wide Web Consortium) que ofrece un modelo para representar el contenido informativo de los recursos de manera que ste sea fcilmente procesable por distintas aplicaciones. De hecho, XML no sera de gran utilidad sin un conjunto de aplicaciones relacionadas que se ocupan de la forma en que se han de procesar los documentos XML, lo que otorga utilidad prctica al estndar.

    Una de las principales caractersticas de XML es que, a diferencia de HMTL, permite diferenciar entre la forma de presentacin de los documentos, su estructura y su contenido informativo. Este hecho tiene importantes repercusiones: por una parte, posibilita un control ms eficiente y a la vez sencillo de las caractersticas de presentacin a travs de hojas de estilo (CSS); por otra, permite utilizar un nmero ilimitado de etiquetas en la descripcin del contenido, siempre que stas se encuentren definidas en su correspondiente DTD (Document Type Definition), que es el documento en que se especifica el conjunto de marcas que pueden ser utilizadas para codificar un determinado tipo de documento. De hecho, para que un sistema pueda procesar un documento XML, ste habr de referir la DTD en que se basa.

    As, en el ejemplo del sitio web de la Iniciativa Dublin Core de Metadatos (http://dublincore.org/), observamos la siguiente estructura:

  • Pgina 23

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Declaracin de tipo de documento, sealando las DTD correspondientes

    Inicio de la cabecera

    Dublin Core Metadata Initiative (DCMI) Etiqueta de ttulo

    Etiqueta de enlace al esquema DC

    ()

    Etiquetas de metadatos (meta tags) del estandar empleadas en la descripcin del recurso

    Cierre de la cabecera

    ()

    Cuerpo del documento

    Cierre del documento html

    En la prctica, HTML y XML se pueden llegar a utilizar incluso de forma combinada (XHTML), ya que aunque XML ofrece interesantes ventajas y ha recibido un tratamento entusiasta por parte de la comunidad web en los ltimos aos, esto no quiere decir que haya sustituido a HTML, ya que en principio ambos atienden a funcionalidades distintas.

    3.3.3. RDF (Resource Description Frameworks)

    Se trata de una recomendacin (no estndar propiamente dicho) del Consorcio Web

  • Pgina 24

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    orientada a representar la semntica implcita en los documentos de manera que sta pueda ser procesada y comprendida por mquinas. Presenta un modelo conceptual en funcin del cual se pueden representar los metadatos referentes a los recursos, sus propiedades y valores con otros lenguajes, generalmente XML. Junto a este ltimo, es considerado la base de la denominada Web semntica, como se muestra en la siguiente figura:

    Fig. 2: Estructura (layer-cake) de la web semntica (Daconta, Obrst & Smith, 2003)

    Un ejemplo de registro DC codificado en RDF (XML) sera el siguiente:

    Recording qualified Dublin Core metadata in HTML We describe a notation for recording qualified Dublin Core metadata in HTML meta elements. The syntax includes recommended usage of the standard HTML syntax to record the different classes of qualification needed to represent the model. 1999-08-18 text/html en Dublin Core Metadata Initiative

  • Pgina 25

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    3.4. Estndares: protocolos (Z39.50, OAI-PMH)

    Los protocolos establecen un conjunto de reglas que regulan la comunicacin entre sistemas informticos (dos conocidos protocolos son el HTTP o Hypertext Transport Protocol y el FTP o File Transfer Protocol). En esta seccin destacamos dos protocolos especialmente relevantes para la recuperacin de informacin en SID: Z39.50 y OAI-PMH.

    3.4.1. Z39.50

    Se trata de un estndar utilizado principalmente en el mbito bibliotecario que hace posible que dos sistemas informticos en la red puedan comunicarse con el propsito de intercambiar y recuperar informacin, de manera que los usuarios finales puedan realizar bsquedas en varias bases de datos (por ejemplo, catlogos de bibliotecas) de manera simultnea a travs de un interfaz comn y sin necesidad de conocer la sintaxis de bsqueda empleada en cada una de ellas.

    Su origen est en el proyecto LSP (Linked System Project) desarrollado en la dcada de 1980 con objeto de normalizar la bsqueda en los catlogos de la OCLC, LOC (Library of Congress), RLG (Research Library Group) y la WLN (Western Library Network). Recogido en 1988 en la norma NISO de la que toma su nombre (ANSI/NISO Z39.50-1995: Information Retrieval, Application Service Definition and Protocol Specification), en 1997 se aprob como estndar ISO 23950 la tercera versin del protocolo, siendo la NISO del ao 2003 la ltima presentada hasta el momento (texto de la misma accesible en: http://www.loc.gov/z3950/agency/Z39-50-2003.pdf). De su mantenimiento se encarga la LOC Z39.50 Maintenance Agency (http://www.loc.gov/z3950/agency/) y el grupo de implementadores ZIG (Z39.50 Implementors Group, http://www.loc.gov/z3950/agency/zig/zig-meetings.html).

    El sistema que define el protocolo est basado en una estructura cliente/servidor. Tanto la aplicacin cliente, denominada Zclient, que es aquella desde la que se formulan las consultas, como la aplicacin servidor o Zserver, que es la que ejecuta las consultas contra su base de datos y devuelve los resultados correspondientes, deben ser capaces de interpretar el protocolo.

    El protocolo normaliza los mensajes que estas dos aplicaciones deben enviarse, su semntica y formato de transferencia de datos. En primer lugar, la aplicacin cliente traduce la estrategia de bsqueda planteada por el usuario a un conjunto de mensajes vlidos segn el protocolo, y a continuacin las enva al servidor. El servidor recibe entonces el mensaje, lo traduce al lenguaje comprensible para la base de datos de destino, ejecuta la bsqueda y devuelve los resultados al cliente en un formato vlido segn el protocolo Z39.50, que de nuevo es interpretado en la aplicacin inicial.

    La adopcin del protocolo por parte de los principales proveedores de Sistemas Integrados de Gestin de Bibliotecas (SIGB) mediante la implementacin en los

  • Pgina 26

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    mismos de software Zserver y Zclient ha permitido alcanzar un ms que satisfactorio grado de interoperabilidad entre catlogos de bibliotecas de todo el mundo. Sin embargo, el potencial del protocolo va ms all, y son varios los proyectos que, desde finales del 2001, fecha en que se aprob el programa ZING (Z39.50 International Next Generation) para definir la evolucin del protocolo en el marco de la Web, abordan su aplicacin en distintos mbitos: SRW (Search/Retrieve Service), CQL (Common Query Language), ZOOM (Z39.50 Object-Oriented Model), etc.

    Cabe mencionar que el protocolo Z39.50 es un estndar de aplicacin compleja, por lo que se han desarrollado los denominados perfiles. Los perfiles especifican las partes, funciones y caractersticas del protocolo que una implementacin especfica debe soportar. Se han desarrollado perfiles para informacin gubernamental (GILS), datos geoespaciales (GEO) o la navegacin de tesauros (Zthes). Una completa lista de perfiles del protocolo se puede encontrar en: http://www.loc.gov/z3950/agency/profiles/profiles.html.

    3.4.2. Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH)

    En cumplimiento de su misin estratgica, desarrollar y promover estndares de interoperabilidad que busquen facilitar la difusin eficiente de contenidos (http://www.openarchives.org/), la Open Archives Initiative (OAI), ha desarrollado un protocolo especfico que permite intercambiar registros de metadatos de publicaciones acadmicas (artculos, informes, etc. producidos en el mbito acadmico, normalmente conocidos como e-prints) entre los distintos repositorios de acceso abierto que los pudieran albergar.

    La OAI propuso con este protocolo una tecnologa alternativa al Z39.50 para la bsqueda bibliogrfica simultnea en varias bases de datos. Su protocolo trata de salvar la dificultad que plantea a Z39.50 la recuperacin sobre mltiples bases de datos al mismo tiempo (bsqueda distribuida), y para ello plantea el uso del harvesting o recoleccin de registros de metadatos hacia una base de datos centralizada (Service Provider), que acta como intermediaria entre los repositorios que los contienen (Data Providers) y el usuario final.

    La comunicacin que se establece entre los sistemas implicados se basa en la utilizacin de instrucciones del protocolo http para emitir preguntas y obtener respuestas (GET / POST). Un ejemplo de peticin y respuesta entre cliente y servidor sera el siguiente (Barrueco y Subirats, 2003):

    Peticin:

    http://an.oa.org/OAI-script? verb=GetRecord&identifier=oai:arXiv:hep-th/9901001&metadataPrefix=oai_dc

  • Pgina 27

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Respuesta:

    2002-05-01T19:20:30Z http://an.oa.org/OAI-script oai:arXiv:cs/0112017 2001-12-14 cs math Using Structural Metadata to Localize Experience of Digital Content Dushay, Naomi Digital Libraries With the increasing technical sophistication of both information consumers and providers, there is increasing demand for more meaningful experiences of digital information. We present a framework that separates digital object experience, or rendering, from digital object storage and manipulation, so the rendering can be tailored to particular communities of users. Comment: 23 pages including 2 appendices, 8 figures 2001-12-14

    Como se puede observar en este ejemplo, el formato de intercambio es XML, y el

  • Pgina 28

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    esquema de metadatos empleado es Dublin Core no cualificado, si bien este protocolo admite la utilizacin de otros esquemas adicionales.

    3.5. Estndares de metadatos: desarrollo y tipologa

    Una norma se puede definir como un documento de aplicacin voluntaria que contiene especificaciones tcnicas basadas en el resultado de la experiencia y del desarrollo tecnolgico; fruto del consenso entre todas las partes interesadas e involucradas en la actividad objeto de la misma (AENOR, http://www.aenor.es/desarrollo/normalizacion/quees/ventajas.asp). En efecto, el desarrollo de normas sigue un proceso complejo, que podra ser resumido grficamente de la siguiente manera:

    Fig. 3: Esquema de desarrollo de estndares

    Como se puede observar, las necesidades de nuevos productos o servicios expresadas por determinadas comunidades de uso (usuarios, organizaciones, etc.) al sector industrial propicia el desarrollo de especificaciones (normas de facto), que a la larga pueden dar lugar a normas (normas de iure) en las que se recogen las experiencias y prcticas previas, y que son publicadas por entidades de normalizacin nacionales e internacionales (por ejemplo, ISO). La validez de estas normas est sujeta a la utilidad que posean para las comunidades de uso, y en la medida en que sirvan a sta pueden dar lugar a nuevas especificaciones y normas.

  • Pgina 29

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    En el contexto de los metadatos, se diferencian tres tipos de esquemas:

    Estndares: esquemas normalizados, aprobadas por organismos oficiales de normalizacin (ISO, ANSI, AENOR, etc.) y que son adoptadas por los distintos sectores afectados. Es el caso del estndar Dublin Core (ISO 15836:2003) o la norma del IEEE para objetos de aprendizaje (IEEE 1484.12.1-2002, aprobada por ANSI el 14 de noviembre de 2002) .

    Especificaciones: esquemas desarrollados por consorcios, principalmente de entidades industriales. Su utilidad reside en hacer llegar a los rganos de normalizacin las necesidades de los distintos sectores implicados o afectados. Pueden servir, por tanto, de base para la elaboracin de normas. Es el caso, por ejemplo, de las especificaciones del IMS o ADL (SCORM).

    Implementaciones: tambin llamados perfiles de aplicacin, son esquemas transformados en atencin a las necesidades especficas de determinadas comunidades de usuarios. Recogen elementos de uno o varios estndares y/o especificaciones, y se implementan bien aplicando restricciones de uso (nmero de elementos o repeticiones de los mismos) o bien aadiendo extensiones (nuevos elementos o vocabularios/espacios de nombres, namespaces).

    3.6. Bibliografa

    ARMS, W. Y. (2000). Digital libraries [en lnea]. Cambridge, MASS: MIT Press. [Consulta: 21 de marzo de 2007]. Disponible en: . ISBN 0262018808.

    BACA, Murtha (1999). Introduccin a los metadatos: vas a la informacin digital. Los ngeles: J. Paul Getty Trust. ISBN ISBN 0892365358.

    BARRUECO, J.M.; SUBIRATS, I. (2003). OAI-PMH: Protocolo para la transmisin de contenidos en Internet [en lnea]. Disponible en: .

    BORGMAN, C.L. (2000). From Gutenberg to the Global Information Infrastructure: Access to information in the networked world. Cambridge, USA: MIT Press. ISBN 026202473X.

    Institute of Electrical and Electronics Engineers (1990). IEEE Standard Computer Dictionary: A Compilation of IEEE Standard Computer Glossaries. New York: IEEE. Disponible en: http://www.sei.cmu.edu/str/indexes/glossary/interoperability.html.

    WOODLEY, M.S. (2003). Glosario DCMI. [en lnea]. Disponible en: .

  • Pgina 30

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Bibliografa bsica en castellano

    ABSYSNET.COM (2003) ZING Z39.50 International: Next Generation [en lnea]. Disponible en: .

    ABSYSNET.COM (2001) Z39.50 [en lnea]. Disponible en: .

  • Pgina 31

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Mdulo 4. Estndar Dublin Core (ISO 15836:2003)

    4.1. Caractersticas del esquema DC

    En este apartado est dividido en cuatro subapartados:

    Breve historia de la Dublin Core Metadata Initiative (DCMI). Organizacin de la DCMI. DC en Espaa. Caractersticas del estndar.

    4.1.1. Breve histria de la Dublin Core Matadata Initiative (DCMI)

    A mediados de los aos 90, se empez a apreciar que la creciente cantidad de documentos electrnicos disponibles en la red imposibilitaba su tratamiento profesional. Por ello, un grupo de expertos procedentes de diversos mbitos de trabajo, aunque principalmente de las Ciencias Documentales, decidi que deban pensar en un modo de facilitar que los propios autores dieran un tratamiento documental bsico (de ah el trmino Core) a los contenidos que publicaban en la web y dotar a stos de unas mnimas garantas de poder ser recuperados a posteriori mediante los motores de bsqueda. As, en 1995 se celebr en Dublin (Ohio, Estados Unidos, ciudad de la que toma su nombre) la primera reunin de la iniciativa, promovida por la OCLC (Online Computer Library Center) y el NCSA (National Center for Supercomputing Applications), que en adelante se denominara DC1 (las distintas reuniones de la iniciativa fueron numeradas con objeto de facilitar la ubicacin cronolgica de las distintas decisiones adoptadas). En esta primera reunin se realiz una primera aproximacin al objeto de descripcin, el DLO (Document Like Object) y al modelo descriptivo, el Dublin Core Metadata Element Set (DCMES). El concepto de DLO hace referencia a la unidad documental mnima tratable, que si bien en origen puede referirse a elementos tanto digitales como no digitales, en la prctica se identifica con cualquier documento digital al que se pueden incorporar metadatos con objeto de facilitar su recuperacin. En los ltimos aos, el trmino predominante ha sido, no obstante, el de recursos digitales (digital resources) o simplemente recursos. Por su parte, el conjunto de elementos Dublin Core ha ido evolucionando a lo largo de las diferentes reuniones que se han ido celebrando, tanto en forma de workshops o talleres peridicos como de congresos que anualmente se han celebrado en distintas ciudades del mundo (http://dublincore.org/workshops/), desde Tokyo (2001) a Singapur (2007), pasando por Madrid (2005). Fruto del trabajo desarrollado y del grado de consenso alcanzado con el mismo, el DCMES se convirti en norma estadounidense ANSI/NISO Z39.85 en el ao 2001

  • Pgina 32

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    (http://www.niso.org/standards/resources/Z39-85.pdf), aprobndose en 2003 como norma internacional ISO 15836:2003 (http://www.niso.org/international/SC4/n515.pdf).

    4.1.2. Organizacin de la DCMI

    El trabajo de la iniciativa est liderado por un equipo directivo (conformado en la actualidad por Max Dekkers y Thomas Baker) que se encarga de marcar las lneas de actuacin as como de supervisar las distintas actividades desarrolladas. Cuenta con un equipo asesor denominado Board of Trustees (compuesto actualmente por nueve miembros de distintas nacionalidades) que supervisa el conjunto de la iniciativa, busca financiacin y promociona la adopcin del DCMES. Por otra parte, el Usage board se encarga de controlar el desarrollo de los distintos elementos que conforman el esquema a partir del modelo conceptual base, el DCMI Abstract Model (http://dublincore.org/documents/abstract-model/), as como las distintas experiencias y necesidades de las comunidades en se que va aplicando el esquema, que se canalizan a travs de los distintos grupos de trabajo de la iniciativa (como la DCMI Libraries Community dedicado a las bibliotecas o la DCMI Education Community dedicado a la comunidad educativa).

    4.1.3. DC en Espaa

    En Espaa existe un grupo de trabajo asociado a la iniciativa, el Grupo de Trabajo sobre Normalizacin para la Recuperacin de informacin en Internet (NORMAWEB), que desarrolla sus actividades desde la SEDIC (Asociacin Espaola de Documentacin e Informacin). Dicho grupo mantiene un mirror espaol de la web de la DCMI (http://es.dublincore.org/) as como una lista de distribucin en RedIris, DCMI-ES, abierta a la comunidad hispanohablante (http://www.rediris.es/list/info/dcmi-es.es.html).

    4.1.4. Caractersticas del estndar

    El estndar Dublin Core es hoy da uno de los esquemas de mayor difusin en el mundo, tanto por su simplicidad como por su flexibilidad, demostrada en su aplicacin a mltiples disciplinas y comunidades de inters. Se compone de tan slo 15 elementos, que comparten las siguientes caractersticas:

    Todos estn al mismo nivel jerrquico. Todos ellos son opcionales y repetibles tantas veces como sea preciso. El orden en que se presenten es indiferente.

    El desarrollo de este esquema de metadatos sigue cuatro principios (Hillman, 2003):

  • Pgina 33

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    5. Su simplicidad de creacin y mantenimiento. El esquema ha de ser tan simple como sea posible tanto en su forma, contando con el mnimo nmero de elementos que permitan realizar una descripcin adecuada, como en su construccin y mantenimiento.

    6. Uso de semntica convenida. Los elementos del esquema representan caractersticas (semntica) que se pueden encontrar en recursos generados por distintas disciplinas y que por tanto son de comn aplicacin.

    7. Alcance internacional. El esquema pretende poder ser aplicado internacionalmente, a recursos de todo tipo y procedencia. Para ello, la DMCI realiza un importante esfuerzo por aunar los intereses expresados por los distintos agentes internacionales participantes, realizando versiones en varias lenguas.

    8. Extensibilidad. La DCMI ha previsto la posibilidad de que el esquema sea adaptado en funcin de las necesidades particulares de cada comunidad de uso mediante los denominados perfiles de aplicacin, que posibilitan el uso del esquema DC junto con elementos procedentes de otros esquemas u otros de creacin local (denominadas extensiones).

    A la hora de aplicar el esquema, la DCMI recomienda tener en cuenta los siguientes principios (bidem):

    1. El principio uno-a-uno (One-to-one principle). Segn este principio, cada versin de un recurso (tanto por alteracin de su contenido, formato, etc.) ha de tener una descripcin propia, independiente. La relacin natural entre el recurso y sus distintas versiones ha de ser, eso s, preservada en la descripcin.

    2. El principio de simplificacin (Dumb-down principle). Segn este principio, cualquier aplicacin podra emplear los valores asignados al cualificador de un elemento aunque dicha aplicacin no est preparada para entender cualificadores. Esto quiere decir que si, por ejemplo, un centro importara un registro de metadatos codificado segn DC cualificado y dicho centro no empleara ms que DC simple, los valores includos en los cualificadores del registro importado se tomaran en el centro de destino como valores de elementos DC simple, sin alterar por ello la naturaleza ni efectividad de los mismos.

    3. Adecuacin de los valores. Este principio establece que en la eleccin de los valores asignados a los distintos elementos y calificadores ha de primar su inters para la recuperacin.

    4.2. DC simple y cualificado

    DC posibilita dos niveles de descripcin: DC simple y DC cualificado (qDC o

  • Pgina 34

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    qualified Dublin Core). DC simple comprende el conjunto de 15 elementos recogidos en el estndar, y representa un conjunto de elementos que sirven para describir un recurso informativo de manera genrica. Sin embargo, en determinados contextos de aplicacin, de mbito ms especfico, se precisar un mayor nivel de detalle en la descripcin de los recursos para que stos sean identificados de manera adecuada. Por ello, la DCMI propuso lo que se denomina DC cualificado, que incorpora siete elementos adicionales as como un conjunto de subelementos (33 en total) desarrollado para algunos de los elementos principales que se denominan cualificadores (qualifiers) o refinamientos (refinements), que matizan, especifican o precisan (no extienden) el alcance de los primeros. Cuando se hace uso de estos subelementos, se dice que se est utilizando DC cualificado. En trminos lingsticos, los elementos seran los nombres y los cualificadores los adjetivos. La DCMI mantiene un registro (http://dublincore.org/dcregistry/) en el que se recogen los distintos elementos, calificadores y vocabularios asociados al esquema.

    Antes de presentar los distintos elementos del esquema, debemos sealar que despus del ao 2000, en sintona con los desarrollos de lenguajes de codificacin para la web, la DCMI decici que los nombres de elementos y calificadores se escribieran en minsculas, salvo en el caso de nombres compuestos, en los que se introducen maysculas para una mayor claridad en su lectura (http://dublincore.org/documents/naming-policy/).

    4.2.1. DC Simple

    Los elementos de DC simple son:

    title [Ttulo]

    Nombre por el que formalmente se conoce el recurso.

    creator [Creador]

    Persona o entidad responsable de la creacin del recurso o la versin del mismo de que se trata.

    subject [Materia]

    Tema de que trata el recurso.

    description [Descripcin]

    Descripcin, a texto libre, del contenido del recurso.

  • Pgina 35

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    publisher [Editor]

    Entidad responsable de la publicacin del recurso.

    contributor [Colaborador]

    Persona o entidad con responsabilidad parcial en la creacin del recurso.

    date [Fecha]

    Fecha de creacin o publicacin del recurso u otras fechas asociadas a su ciclo de vida.

    type [Tipo de recurso]

    Naturaleza del recurso, en funcin de su contenido.

    format [Formato]

    Naturaleza del recurso, en funcin de sus caractersticas tcnicas.

    identifier [Identificador]

    Referencia para la identificacin inequvoca del recurso (URI, URL, DOI, etc,)

    source [Fuente]

    Referencia al identifier del recurso del que se deriva el recurso descrito.

    language [Idioma]

    Idioma o idiomas empleados en el recurso.

    relation [Relacin]

    Referencia al identifier del recurso o recursos con los que est relacionado el recurso descrito.

  • Pgina 36

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    coverage [Cobertura]

    Alcance espacial, temporal o jurisdiccional asociado al contenido del recurso.

    rights [Derechos]

    Datos relativos al rgimen de proteccin de derechos de autor que afecta al uso del recurso descrito.

    4.2.2. DC Cualificado

    En cuanto a los cualificadores recomendados por la DCMI, stos son:

    Elementos. Refinamientos (Element Refinements).

    4.2.2.1. Elementos

    accrualMethod [Mtodo de incorporacin]

    Modo en que el recurso se incorpora a la coleccin.

    accrualPeriodicity [Periodicidad de incorporacin]

    Frecuencia con la que un recurso se incorpora a una coleccin.

    accrualPolicy [Poltica de incorporacin]

    Poltica de incorporacin de recursos a la coleccin.

    audience [Usuario]

    Tipo de usuario para al que se dirige el recurso o para el que puede ser de utilidad.

    instructionalMethod [Mtodo instructivo]

    De especial utilidad en la descripcin de recursos educativos, especifica el mtodo

  • Pgina 37

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    instructivo empleado en el recurso.

    provenance [Procedencia]

    Identificacin de los sucesivos cambios en la propiedad y custodia del recurso desde su creacin relevantes para su autenticidad, integridad e interpretacin.

    rightsHolder [Propietario de derechos]

    Persona o entidad a la que pertenecen los derechos de autor asociados al uso del recurso.

    4.2.2.2. Refinamientos (Elements Refinements)

    E: description; ER: abstract [Resumen]

    Resumen del contenido del recurso.

    E: rights; ER: accessRights [Derechos de acceso]

    Informacin sobre las restricciones de acceso al recurso.

    E: title; ER: alternative [Ttulo alternativo]

    Cualquier forma del ttulo de un recurso que se emplee como sustituto o alternativo al principal.

    E: date; ER: available [Disponible]

    Fecha o fechas en la que un recurso estar disponible en red.

    E: identifier; ER: bibliographicCitation [Cita bibliogrfica]

    Referencia bibliogrfica del recurso.

    E: relation; ER: conformsTo [Conforme a]

    Referencia a la norma o normas que el recurso cumple.

  • Pgina 38

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    E: date; ER: created [Fecha de creacin]

    Fecha de creacin del recurso.

    E: date; ER: dateAccepted [Fecha de aceptacin]

    Fecha en la que se acept el recurso (tesis, artculo cientfico, etc.).

    E: date; ER: copyright [Fecha de copyright]

    Fecha del copyright asociado al recurso.

    E: date; ER: dateSubmitted [Fecha de remisin]

    Fecha de remisin del recurso (tesis, artculo cientfico, etc.).

    E: audience; ER: educationLevel [Nivel educativo]

    Identifica el nivel educativo del usuario al que se dirige el recurso o para el que puede ser de mayor utilidad.

    E: format; ER: extent [Extensin]

    Tamao o duracin del recurso.

    E: relation; ER: hasFormat [Tiene formato en]

    Identifica posteriores versiones (en cuanto a formato) del recurso descrito.

    E: relation; ER: hasPart [Tiene parte en]

    El recurso descrito est compuesto de una o varias partes, entre las que se encuentra/n la/s referenciada/s.

    E: relation; ER: hasVersion [Tiene versin en]

    Referencia a la/s versin/es (en cuanto a contenido) del recurso descrito.

  • Pgina 39

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    E: relation; ER: isFormatOf [Es formato de]

    Establece la relacin inversa al cualificador hasFormat.

    E: relation; ER: isPartOf [Es parte de]

    Establece la relacin inversa al cualificador hasPart.

    E: relation; ER: isReferencedBy [Es referenciado por]

    El recurso descrito es referenciado o citado por el recurso referenciado.

    E: relation; ER: isReplacedBy [Es reemplazado por]

    El recurso descrito ha quedado obsoleto y ha sido reemplazado por el recurso referenciado.

    E: relation; ER: isRequiredBy [Es requerido por]

    El recurso descrito es requerido por el recurso referenciado ya sea de manera fsica o lgica.

    E: relation; ER: isVersionOf [Es versin de]

    Establece la relacin inversa al cualificador hasVersion.

    E: date; ER: issued [Edicin]

    Fecha de edicin formal del recurso (publicacin).

    E: rights; ER: license [Licencia]

    Disponibilidad de documento legal en que se de permiso de manera oficial para hacer uso del recurso.

    E: audience; ER: mediator [Mediador]

    Identifica el tipo de usuario que puede mediar en el acceso a un recurso educativo

  • Pgina 40

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    (docente o administrador).

    E: format; ER: medium [Medio]

    Material o medio fsico del recurso descrito.

    E: date; ER: modified [Modificado]

    Fecha en la que el recurso fue modificado.

    E: relation; ER: references [Referencia a]

    Establece la relacin inversa al cualificador isReferencedBy.

    E: relation; ER: replaces [Reemplaza a]

    Establece la relacin inversa al cualificador isReplacedBy.

    E: relation; ER: requires [Requiere]

    Establece la relacin inversa al cualificador isRequiredBy.

    E: coverage; ER: spatial [Espacial]

    Identifica la cobertura espacial del recurso (lugar/es).

    E: description; ER: tableOfContents [ndice]

    Lista de las secciones del recurso descrito.

    E: coverage; ER: temporal [Temporal]

    Identifica la cobertura temporal del recurso (tiempo o poca).

    E: date; ER: valid [Vlido]

    Identifica la fecha o rango de fechas en que el recurso es vlido.

  • Pgina 41

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    4.3. Vocabularios

    Como se ha dicho anteriormente, los esquemas de metadatos determinan tanto la sintaxis como la semntica. En cuanto a esta ltima, determina los posibles valores que pueden adoptar los elementos. En funcin del elemento de que se trate, DC permite nutrirlo de distintas maneras: cdigos alfanumricos, texto libre o vocabularios. DCMI diferencia dos tipos de vocabularios: listas de trminos y vocabularios controlados. En los siguientes cuadros-resumen se presentan datos relativos a los vocabularios recomendados, los elementos a los que estn asociados y la localizacin del texto de referencia correspondiente a cada uno de ellos:

    Vocabulario: dcmi-box

    Elemento: spatial [coverage]

    Descripcin: Identifica una regin espacial a partir de sus lmites geogrficos.

    Localizacin: http://dublincore.org/documents/dcmi-box/

    Vocabulario: dcmi-type

    Elemento: type

    Descripcin: Lista de valores empleados para categorizar la naturaleza o gnero del contenido del recurso descrito.

    Localizacin: http://dublincore.org/documents/dcmi-type-vocabulary/

    Vocabulario:

    DDC

    Elemento: subject

    Descripcin:

    Valores recogidos en la Dewey Decimal Classification (DDC).

    Localizacin http://www.oclc.org/dewey/

  • Pgina 42

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    : http://www.oclc.org/dewey/resources/summaries/deweysummaries.pdf

    Vocabulario:

    ISO3166

    Elemento: spatial [coverage]

    Descripcin:

    Cdigos estndar para la representacin de nombres de pases.

    Localizacin:

    http://www.iso.org/iso/country_codes/iso_3166_code_lists/english_country_names_and_code_elements.htm

    Vocabulario: ISO639-2

    Elemento: language

    Descripcin: Cdigos normalizados para la representacin de nombres de idiomas.

    Localizacin: http://www.loc.gov/standards/iso639-2/langhome.html

    Vocabulario: LCC

    Elemento: subject

    Descripcin: Valores recogidos en la Library of Congress Classification (LCC).

    Localizacin: http://www.loc.gov/catdir/cpso/lcco/

  • Pgina 43

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Vocabulario: LCSH

    Elemento: subject

    Descripcin: Valores recogidos en la Library of Congress Subject Headings (LCSH).

    Localizacin: http://www.loc.gov/cds/lcsh.html#lcsh20

    Vocabulario: MESH

    Elemento: subject

    Descripcin: Valores recogidos en la Medical Subject Headings (MESH).

    Localizacin: http://www.nlm.nih.gov/mesh/meshhome.html

    Vocabulario: dcmi-period

    Elemento: date; temporal [coverage]

    Descripcin: Especifica los lmites de un intervalo de tiempo.

    Localizacin: http://dublincore.org/documents/dcmi-period/

    Vocabulario: dcmi-point

    Elemento: spatial [coverage]

    Descripcin: Identifica un punto en el espacio a travs de sus coordenadas geogrficas.

  • Pgina 44

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Localizacin: http://dublincore.org/documents/dcmi-point/

    Vocabulario: RFC1766

    Elemento: language

    Descripcin: Cdigos normalizados para la representacin de nombres de idiomas.

    Localizacin: http://www.ietf.org/rfc/rfc1766.txt

    Vocabulario: RFC1766

    Elemento: language

    Descripcin: Cdigos normalizados para la representacin de nombres de idiomas.

    Localizacin: http://www.ietf.org/rfc/rfc3066.txt

    Vocabulario: TNG

    Elemento: spatial [coverage]

    Descripcin: Valores recogidos en el Getty Thesaurus of Geographic Names.

    Localizacin:

    http://www.getty.edu/research/conducting_research/vocabularies/ tgn/index.html

  • Pgina 45

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Vocabulario: UDC

    Elemento: subject

    Descripcin: Valores recogidos en la Universal Decimal Classification (UDC, CDU en castellano).

    Localizacin: http://www.udcc.org/outline/outline.htm

    Vocabulario: URI

    Elemento: identifier; source; relation

    Descripcin: La forma ms conocida de Universal Resource Identifier (URI) es la URL (Universal Resource Locator).

    Localizacin: http://www.ietf.org/rfc/rfc2396.txt

    Vocabulario: W3CDTF

    Elemento: date; temporal [coverage]

    Descripcin: Basada en ISO8601, permite codificar fechas y horas.

    Localizacin: http://www.w3.org/TR/NOTE-datetime

    Adems de estos vocabularios, la DCMI fomenta el que las distintas comunidades de aplicacin del esquema utilicen otros vocabularios, tanto estndares como desarrollados localmente, en los distintos centros de aplicacin. Se recomienda, en todo caso, utilizar los vocabularios recomendados en la medida de lo posible con el fin de tratar de asegurar el mayor grado de interoperabilidad con otros sistemas de informacin usuarios de DC.

  • Pgina 46

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    4.3.1. Cuadro-resumen del esquema DC completo

    El siguiente cuadro nos ser de utilidad como referencia a la hora de realizar registros siguiendo el esquema DC:

    Tipo Vocabulario/s

    accrualMethod Cualificador (Elemento)

    accrualPeriodicity Cualificador (Elemento)

    accrualPolicy Cualificador (Elemento)

    audience Cualificador (Elemento)

    + educationLevel Cualificador

    + mediator Cualificador

    contributor Elemento

    coverage Elemento

    + spatial Cualificador dcmi-box / ISO3166 / point / TGN

    + temporal Cualificador period / W3CDTF

    creator Elemento no especificado

    date Elemento period / W3CDTF

    + available Cualificador

    + created Cualificador

    + date accepted Cualificador

  • Pgina 47

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    + dateCopyrighted Cualificador

    + dateSubmitted Cualificador

    + issued Cualificador

    + modified Cualificador

    + valid Cualificador

    description Elemento

    + abstract Cualificador

    + table of contents Cualificador

    format Elemento IMT

    + extent Cualificador

    + medium Cualificador

    identifier Elemento URI

    + bibliographicCitation Cualificador

    instructionalMethod Cualificador (Elemento)

    language Elemento ISO639-2 / RFC1766 / RFC3066

    provenance Cualificador (Elemento)

    publisher Elemento

    relation Elemento URI

    + conformsTo Cualificador URI

  • Pgina 48

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    + hasFormat Cualificador URI

    + hasPart Cualificador URI

    + hasVersion Cualificador URI

    + isFormatOf Cualificador URI

    + isPartOf Cualificador URI

    + isReferencedBy Cualificador URI

    + isReplacedBy Cualificador URI

    + isRequiredBy Cualificador URI

    + isVersionOf Cualificador URI

    + references Cualificador URI

    + replaces Cualificador URI

    + requires Cualificador URI

    rights Elemento

    + accessRights Cualificador

    + license Cualificador

    rightsHolder Cualificador (Elemento)

    source Elemento URI

    subject Elemento DDC / LCC / LCSH / MESH / NLM / UDC

    title Elemento

  • Pgina 49

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    + alternative Cualificador

    type Elemento dcmi-type

    En los casos en que no se especifica un vocabulario determinado o bien no hay necesidad de usar ninguno dada la naturaleza de los datos a consignar (caso de title, creator, etc.), o bien no se recomienda ninguno en particular pero s se recomienda utilizar o desarrollar vocabularios especficos (caso de accrualMethod, accrualPeriodicity, etc.). Recordemos que la utilizacin de una lista de valores o de un vocabulario controlado est motivada por la necesidad de desambiguacin que en determinados casos pueden darse con objeto de incrementar las posibilidades de recuperacin.

    4.4. Codificacin de DC en HTML, XHTML, RDF y XML

    Una de las caractersticas de DC es que se trata de un esquema que acta a nivel semntico, siendo verstil a la hora de adaptarse a distintos sistemas de codificacin. La DCMI ha publicado varias guas en las que se recogen recomendaciones para la codificacin de su esquema, disponibles en http://dublincore.org/resources/expressions/.

  • Pgina 50

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    4.4.1. Codificacin de DC en HTML/XHTML

    Como ya se ha mencionado, las metaetiquetas (metadatos) se han de consignar en la parte inicial del cdigo fuente del documento, denominada cabecera (seccin ), que se sita entre la declaracin y el cuerpo (). Una forma tpica sera la siguiente:

  • Pgina 51

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Las lneas en que se consignan los elementos son necesarias para indicar que los elementos DC (tanto simple, en el caso de la primera, como cualificado, en el caso de la segunda) que se van a emplear en la descripcin estn registrados y definidos en las URL referenciadas. En el ejemplo presentado, se han incluido un elemento (title) y un cualificador (audience). El primero hace referencia al esquema simple (est precedido por la abreviatura del esquema, DC, especificada en el primer elemento ), mientras que el segundo hace referencia al esquema cualificado (precedido de la abreviatura del esquema cualificado, DCTERMS, especificada en el segundo elemento ). Como se puede observar, cada etiqueta tiene dos partes, meta name o nombre del elemento y content, que especifica el valor asignado al elemento.

    Para indicar los vocabularios de los que se han tomado los valores que se han asignado a los elementos, habr que incorporar una nueva lnea, en la que, esta vez, el nombre del elemento ir relacionado con dicho vocabulario. Un ejemplo de esto sera:

    Para los casos de elementos cuyos valores son enlaces (URIs) a otros recursos, la DCMI recomienda emplear el elemento XHTML de la manera que se muestra en los siguientes ejemplos:

    En cuanto al idioma de los valores de los elementos, la DCMI recomienda utilizar los atributos lang (HTML) xml:lang (XHTML, idioma del valor) o hreflang (idioma del contenido de recursos enlazados, si se trata de un elemento que contiene este tipo de valor), segn se muestra en los siguientes ejemplos:

  • Pgina 52

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    4.4.2. Codificacin de DC en XML

    En la gua para la implementacin de DC en XML ms reciente, disponible en http://dublincore.org/documents/2003/04/02/dc-xml-guidelines/, se realizan dos recomendaciones generales: en primer lugar, que en las distintas aplicaciones se empleen schemas en lugar de DTDs y, en segundo lugar, que se utilicen los namespaces o espacios de nombres para identificar los elementos, cualificadores y vocabularios DC, segn se recoge en http://dublincore.org/documents/2007/07/02/dcmi-namespace/.

    En dicha gua se ofrece un registro XML que ejemplifica la forma que stos suelen adoptar:

    UKOLN UKOLN is a national focus of expertise in digital information management. It provides policy, research and awareness services to the UK library, information and cultural heritage communities.UKOLN is based at the University of Bath. UKOLN, University of Bath http://www.ukoln.ac.uk/

    Como podemos observar, el elemento contenedor de los metadatos DC en este registro XML nos encontramos con , si bien podemos encontrarnos otros, como o , ya que la DCMI no establece una recomendacin clara al respecto.

    Tampoco se establece de manera clara una manera de indicar que una descripcin est asociada a un recurso en particular si no es mediante el elemento , cuyo valor es el URI del recurso correspondiente.

    Cada elemento DC ser considerado en XML un elemento XML, y su valor ser el contenido del elemento XML. As, por ejemplo, encontraremos lo siguiente:

  • Pgina 53

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Don Quijote de la Mancha

    En los casos en que a un mismo elemento le correspondan varios valores, stos se repetirn de la siguiente manera:

    AventurasEspaa

    Los cualificadores se tratan en XML de la misma manera que los elementos de DC simple. As, encontraremos, por ejemplo:

    2007-06

    En cuanto a la especificacin de los vocabularios de los que se han tomado los valores que se han asignado a los elementos y cualificadores, sta se har mediante el atributo xsi:type, tal y como se ilustra en el siguiente ejemplo:

    http://www.uc3m.es/

    Para la codificacin del idioma de los valores de los elementos, la DCMI recomienda utilizar el atributo xml:lang, como se muestra en el siguiente ejemplo:

    seafoodmarisco

    En determinados sistemas de informacin, el esquema DC puede no ser suficiente para satisfacer sus necesidades descriptivas, por lo que habr emplear elementos procedentes de otros esquemas. XML permite combinar elementos procedentes de diferentes espacios de nombres, lo que permitir solventar estas carencias. En el ejemplo siguiente (tomado de la gua mencionada de la DCMI), observamos cmo se ha aadido a DC el elemento typicalLearningTime del esquema IMS (equivalente a IEEE LOM):

  • Pgina 54

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Frog maths http://somewhere.com/frogmaths/ Simple maths games for 5-7 year olds 0000-00-00T00:15

    4.4.3. Codificacin de DC en XML/RDF

    La DCMI ha publicado dos recomendaciones, una para DC simple y otra para qDC (pendiente de aprobacin). En ellas, la DCMI detalla cmo realizar la codificacin del esquema. El resultado del proceso lleva a la realizacin de registros como el que presenta:

    Dave Beckett's Home Page Dave Beckett ILRT, University of Bristol 2002-07-31

    En este registro, se aprecian dos diferencias principales con respecto a un registro XML: la declaracin del uso de RDF (cuarta lnea) y la identificacin de los elementos DC como descripcin de un recurso concreto (lneas 6 a 11).

    Al igual que con XML simple, con RDF es posible combinar elementos de distintos esquemas mediante la especificacin de los distintos espacios de nombres implicados. En la siguiente figura, por ejemplo, se ha combinado el elemento DC.title de Dublin Core con el elemento intendedEndUserRole del esquema IEEE LOM.

  • Pgina 55

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    The Information Jungle: Learn to use the Internet for academic research Learner

    4.5. Bibliografa

    HILLMAN, D. (2003). Gua de uso del Dublin Core [en lnea]. Disponible en: .

    Bibliografa bsica en castellano

    Conjunto de elementos Dublin Core, versin 1.1: Descripcin de referencia [en lnea]. Disponible en: .

    WOODLEY, M.S. (2003). Glosario DCMI. [en lnea]. Disponible en: .

  • Pgina 56

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Mdulo 5. Herramientas para la creacin y/o edicin de metadatos

    5.1. Tipologa

    Como hemos visto anteriormente, las descripciones realizadas mediante metadatos se pueden incorporar a los documentos digitales a los que se refieren bien de forma interna o de forma externa. Dado que los creadores de metadatos no tienen por qu saber redactar cdigo, se han desarrollado diversas herramientas para facilitar su creacin, actuando como intermediarias entre las personas y las mquinas, a la manera de traductores. En la prctica, los distintos tipos de herramientas suelen combinarse para facilitar las distintas fases del proceso de creacin. Se podran distinguir las siguientes:

    Tipo de metadatos Herramientas para su creacin

    Metadatos internos

    Formularios De marcado De extraccin De conversin

    Metadatos externos Formularios

    Fig.1. Tipos de herramientas para la creacin de metadatos.

    5.1.1. Metadatos externos

    En el caso de los metadatos externos, el caso ms frecuente es el que encontramos en repositorios y bibliotecas digitales, en los que se facilitan a sus colaboradores una serie de formularios en los que debern consignar los datos correspondientes a los documentos cuya incorporacin proponen. As, por ejemplo, para agregar un documento al repositorio educativo MERLOT (http://www.merlot.org/merlot/index.htm), se habr de cumplimentar el formulario que se muestra en la siguiente figura:

  • Pgina 57

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Fig. 2. Formulario para la descripcin de contenidos educativos en MERLOT.

    Otras herramientas de este tipo son el editor de ADLib (Athabasca Digital Library in a Box) de la Universidad de Athabasca (Canad), que permite crear y editar en lnea los metadatos de los objetos de aprendizaje incorporados al repositorio mediante un formulario que sigue el esquema IEEE LOM, la herramienta eRIB (EduSource Repository in a Box) perteneciente a la iniciativa EduSource (Canad), que utiliza el mismo modelo y puede ser descargada como base de datos/repositorio independiente (eXist) o ser utilizada a travs de COL-LOR (Commonwealth of Learning-Learning Object Repository).

  • Pgina 58

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

  • Pgina 59

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Fig. 3. Formularios para la descripcin de objetos de aprendizaje en ADLib y COL-LOR

    5.1.2. Metadatos internos

    En el caso de los metadatos de carcter interno, encontramos que se suelen utilizar varios tipos de herramientas (NISO, 2004: 10):

    Herramientas de extraccin automtica de metadatos. A travs del anlisis del cdigo fuente de un recurso cuya URL haya sido introducida, este tipo de herramientas generan de forma automtica una descripcin conforme a un modelo de metadatos y una sintaxis especificados. El resultado no suele ser de buena calidad, por lo que generalmente debe ser editado y validado manualmente.

    Formularios (templates). Se utilizan bien para la incorporacin de registros a una base de datos (como hemos visto para el caso de los metadatos externos en repositorios y bibliotecas digitales), bien para la generacin de descripciones en el momento de la creacin de los documentos (caso de las herramientas de autor y plantillas de metaetiquetas tipo MetaTagBuilder, disponible en http://www.localsubmit.com/metatags.asp) o bien para la edicin de las descripciones generadas automticamente por las herramientas de

  • Pgina 60

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    extraccin automtica de metadatos.

    Herramientas de marcado. La funcin de estas herramientas es la de facilitar el proceso de creacin y edicin de cdigo fuente de diversas maneras: mediante la utilizacin de etiquetas autorellenables, colores para los distintos elementos la sintaxis, presentacin arbrea de los distintos niveles jerrquicos de las estructuras, y sobre todo mediante la identificacin automtica de errores. Herramientas como XMLSpy o Notepad++ permiten crear y editar cdigo HTML, XML o JavaScript, entre otros.

    Herramientas de conversin. Su misin es traducir esquemas de metadatos, trasladando los datos de un modelo a otro. Parece evidente que el xito de la traduccin depender del grado de compatibilidad entre los elementos de origen y los de destino, y que se pueden producir prdidas de informacin.

    5.2. Descripcin funcional de herramientas aplicables

    La utilidad de las herramientas de creacin y/o edicin de metadatos reside en facilitar la creacin de metadatos de calidad a los autores de contenidos, bien para potenciar su recuperacin en web o bien para ser importados y extrados posteriormente por sistemas concretos de gestin de contenidos (Greenberg et al., 2003). Por lo general, estas herramientas permiten extraer automticamente los metadatos contenidos en los recursos, con posibilidad de editarlos, o bien generar nuevos metadatos. Entre las herramientas ms representativas (un registro de las cuales se puede encontrar en http://dublincore.org/tools/) destaca DC-dot por ser una de las ms completas de que se dispone en este momento. Se trata de una aplicacin Java (utilizable en lnea o descargable para uso local) desarrollada y mantenida por Andy Powell, de la Universidad de Bath (Reino Unido), en la que se han integrado varias de las funcionalidades que acabamos de ver en el apartado anterior. A partir de una URL, esta herramienta es capaz de extraer los metadatos de un recurso y devolver un registro Dublin Core en XHTML, que es editable a travs de un formulario. Posteriormente, dicha descripcin puede ser convertida a otros lenguajes de marcado y esquemas.

    Al acceder a DC-dot (http://www.ukoln.ac.uk/metadata/dcdot/), encontramos la casilla en la que se nos ofrece la posibilidad de introducir la URL as como solicitar que el resultado se muestre no en XHTML sino en RDF.

  • Pgina 61

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Fig. 4. Pgina de inicio de DC-dot

    Una vez introducida la URL deseada (en este caso, por ejemplo, www.uc3m.es), el botn Submit (enviar) nos lleva a una nueva pantalla en la que podemos visualizar el registro resultante de la extraccin automtica de metadatos as como un formulario en el que podemos modificar el contenido de dicho registro:

  • Pgina 62

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Fig. 5. Registro resultante y formulario de edicin

    Una vez editado y actualizado (re-submit) el registro (en caso de que haya sido necesario hacerlo), ste se puede visualizar en formato XML, HTML o RDF (recuadro 1). Otros formatos disponibles son (botn other formats, recuadro 2) IEEE LOM, IMS, USMARC, SOIF, TEI, IAFA/ROADS, GILS y OLSTF. Dependiendo del formato elegido, el archivo de salida tendr una extensin diferente (en funcin de la aplicacin de destino). As, por ejemplo, si seleccionamos la salida RDF obtendremos el archivo xml correspondiente (salida 1), mientras que si seleccionamos la salida SOIF (Summary Object Interchange Format, ver http://harvest.sourceforge.net/harvest/doc/index.html) obtendremos el archivo .soif correspondiente (salida 2).

    Fig. 6. Salida 1: RDF.

  • Pgina 63

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Fig. 7. Salida 2: SOIF

    La principal ventaja de esta herramienta es que cada uno de los resultados obtenidos se podr copiar y pegar directamente en el cdigo fuente del documento de destino, en la correspondiente seccin de cabecera.

    El principal inconveniente que presenta radica en que dado que la plantilla base es DC simple, la conversin a otros esquemas es limitada. As, por ejemplo, encontraremos que aunque esta herramienta nos permite convertir un registro a un formato de la complejidad y riqueza semntica de IEEE LOM, no podremos aprovechar todo el potencial descriptivo de ste, ya que slo se utilizarn los elementos de LOM con correspondencia en DC.

    Herramientas similares a sta de carcter no comercial son MetaMaker, desarrollada por la FAO (Food and Agriculture Organization, Naciones Unidas) o Reggie (Distributed Systems Technology Center DSTC, Australia).

    5.3. Bibliografa

    GREENBERG, J.; et al. (2003). Iterative design of metadata creation tools for resource authors [en lnea]. International Conference on Dublin Core and Metadata Applications: Supporting Communities of Discourse and Practice. 28 septiembre-2 octubre. Disponible en: .

    NISO (2004). Understanding metadata [en lnea]. Disponible en: .

  • Pgina 64

    Centro Internacional de Tecnologas Avanzadas. FGSR www.fundaciongsr.es/cita/campus

    Mdulo 6. Aplicaciones en la Web

    6.1. Ventajas y desventajas del uso de metainformacin en la Web

    Hace unos aos, Abadall pona de manifiesto que una de las preocupaciones ms importantes para los promotores de la interconectividad y de las autopistas de la informacin es, precisamente, llenarlas de contenidos (Abadall Falgueras, 2001). Ms adelante, aade el problema reside ahora en disear sistemas que permitan organizar este cosmos y establecer procedimientos destinados a favorecer el acceso a las personas que lo deseen (bidem). En efecto, tan importante como proporcionar contenidos de calidad a la red es dotarla de medios adecuados para su recuperacin, y no cabe duda que los metadatos constituyen uno de los medios ms adecuados para ello.

    En la Web, la recuperacin de la informacin se hace, principalmente, a travs de la interrogacin a las grandes bases de datos que conforman los buscadores. La interrogacin se puede definir, en este contexto, como el proceso mediante el cual un sistema es capaz de hacer coincidir las estrategias de bsqueda introducidas por un usuario con las representaciones (trminos seleccionados) de los documentos que la base contiene.

    Entra en escena en este momento un concepto de extremada importancia en recuperacin de informacin (Information Retrieval o IR): la precisin o relevancia. sta se podra definir de manera genrica como el grado de adecuacin de una respuesta documental a una necesidad de informacin concreta. El objetivo