Gestión de la Información: organización, búsqueda y ... personal_EM.pdf · Sistemas de organización de la información 2.2.1. Clasificación decimal universal –CDU– 2.2.2

fundec- 2011 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico,

electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

1

Gestión de la Información: organización, búsqueda y recuperación en Internet

Estela Muelas (2011)

Índice

1. Introducción

2. Organización de la información

2.1. Técnicas de sistematización

2.2. Sistemas de organización de la información

2.2.1. Clasificación decimal universal –CDU–

2.2.2. Tesauros

2.2.4. Distintos documentos

2.2.5. Distintos indizadores

2.5. La (des)organización de la Web

2.5.1 Esquemas de organización de la información en la Web

2.6. Algunas conclusiones

3. Los usuarios y los contenidos en Internet, hoy

4. Recuperación de información

4.1 Buscadores

4.2 Meta-buscadores

4.3 La nueva generación: Google, Vivísimo

4.4 De los directorios de información a los portales

4.4.1 Los portales

4.5 Agentes inteligentes

4.6 En síntesis

4.7 ¿Cómo acceder a la Web profunda?

4.7.1 Bases de Datos, Opac y Journals

4.8 Los idiomas y la recuperación en la Web

5. Del tesauro a la Web Semántica

6. ¿Cómo buscar?

6.1 ¿Porqué utilizar una Estrategia de Búsqueda?

6.2 Requisitos para una búsqueda

6.2.1 La importancia de ser estratégico

6. 3 Modelos de exploración y búsqueda

6.3.1 Serendipia

6.4 Guía para la búsqueda de información

7. Competencias para el manejo de la información

7.1 Acotando el problema

8. Calidad de la información

9. Algunas reflexiones…

10. Bibliografía




2

1. Introducción

Internet como medio de almacenamiento de información y comunicación, nos ofrece una serie de posibilidades que deberemos considerar a la hora de plantearnos nuevos procesos de enseñanza, siempre y cuando no perdamos de vista que innovación debería significar avance y que no tendrá demasiado sentido incorporar tecnologías a procesos educativos clásicos sólo por cuestión de moda.

Podemos considerar, de Internet, los siguientes aspectos:

1. Es un conjunto de medios, que, utilizando un mismo canal, ofrecen distintas posibilidades.

2. Es el primer medio de comunicación de masas bidireccional. Es decir, el receptor, puede convertirse con facilidad también en emisor.

3. La rapidez con la que crece y con la que cambia.

Si Internet es un medio de comunicación y la comunicación entre las personas es la base de todo proceso educativo, no es difícil pensar en la existencia de un nuevo tipo de espacio educativo. Internet permite la creación y el funcionamiento de comunidades virtuales, entendidas estas como grupos de personas que comparten intereses y que se comunican e interactúan en un espacio creado mediante aplicaciones telemáticas.

Teniendo en cuenta hacia donde apuntan las nuevas circunstancias, el rol que el docente ha de desempeñar estará sujeto a cambios. El docente, entendido tradicionalmente, ha sido desplazado por la contundencia de otros transmisores, más versátiles, más capaces de memorizar datos, más instantáneos y dotados con la adicional fascinación de las imágenes, el sonido, los gráficos. Por lo que, sus posibles funciones podrían orientarse hacia tareas de tutorización, diseño, selección y evaluación de materiales y medios educativos; evaluación y seguimiento individual-grupal, dinamización de los procesos de enseñanza-aprendizaje, orientación…

Por otra parte, enseñar a buscar información resulta uno de los grandes desafíos del futuro inmediato. Pero, ¿qué enseñar? Muchos usuarios de la red naufragan en su búsqueda de información por Internet. Principiantes y expertos nos constatan la importancia de ser estratégico y disponer de ciertos criterios de selección de la información.

Ante la proliferación de herramientas de búsqueda que están disponibles para los profesores y alumnos, queda planteada la cuestión de extremar los procesos de selección de las mismas a partir de criterios básicos que orienten la toma de decisiones estratégicas según el contexto de aplicación, los grupos destinatarios, los objetivos y necesidades de información del usuario.




3

2. Organización de la información

Desde los inicios de la civilización, el hombre ha manifestado su tendencia para organizar la información, desde el agrupamiento y clasificación de utensilios de trabajo, de caza, de pesca, etc. o de la propia creación de las estructuras comunitarias -cazadores, guerreros, sabios-, entre otras entidades que surgieron en las primeras formas de sociedad. El hombre organiza para entender, explicar y controlar su entorno. Pero, justamente, como la clasificación la hacen los hombres, hay en potencia tantas clasificaciones como seres humanos.

Si hablamos de información, la organización de estos recursos es una tarea esencial en todo sistema de información. Como es de suponer, en la sistematización de información están trabajando bibliotecarios, documentalistas, gestores de contenidos digitales y especialistas de las distintas disciplinas, en ámbitos tan diversos como bibliotecas, universidades u organizaciones nacionales e internacionales, dado el volumen de la misma y la complejidad que ha alcanzado. Es muy importante señalar que estos avances han superado lo exclusivamente instrumental y han generado una evolución de las Ciencias de la Documentación y de las Ciencias de la Información que supera ampliamente las posibilidades de este artículo.

Aún así, las cinco preguntas clásicas -quién, qué, cuándo, dónde y por qué- son un buen punto de partida para convertir las características de un tema en nuestros requerimientos de búsqueda. Pero que exigen tener en cuenta una sexta pregunta: ¿Cómo?

2.1. Técnicas de sistematización

En las tareas de sistematizar y catalogar información es necesario registrar los datos que corresponden a toda clase de documentos, sean libros, artículos científicos, actas de congresos, etcétera. Un repaso a la última edición del Diccionario de la Real Academia Española (D.R.A.E., 2001) permite despejar algunas dudas. Por ejemplo, figura el verbo verbo indizar, pero su definición remite a indexar:

1) Hacer índices.

2) Registrar ordenadamente datos e informaciones.

La necesidad de recurrir a las técnicas de indexación o indización se hace más evidente cuando se tiene en cuenta que el lenguaje natural utilizado –tanto por el autor del documento como por las personas que pretendemos encontrarlos– es a menudo ambiguo y no siempre lógico, lo que permite diversas interpretaciones. Títulos como Las sombras del pasado o Recuerdos del futuro difícilmente nos orienten sobre el qué, el quién, el cuándo o el dónde de esos documentos. Incluso en títulos más precisos la recuperación de información crea problemas derivados de la indización con el lenguaje natural.

Analizando a la organización de la información desde las posibles demandas, la búsqueda puede ser realizada por nosotros o por otras personas: un bibliotecario, un documentalista, o un programa informático, que actuarán de acuerdo a lo que solicitemos. Como puede apreciarse, debemos especificar –con la mayor claridad posible–, qué información estamos buscando.




4

En principio, para buscar información habría dos caminos:

1) buscar los documentos con la ayuda de las palabras que allí figuran y que son utilizadas por el propio autor para expresar su pensamiento, y

2) dado el carácter ambiguo del lenguaje natural, organizar un vocabulario razonablemente estructurado y con su ayuda buscar los documentos, cualesquiera hayan sido los términos que emplearon los autores para enunciar sus ideas.

El primer procedimiento es atractivo por su simplicidad: buscar los conceptos del documento tal cual se encuentran. Obviamente, es sencillo pero no es eficaz.

¿Por qué? Porque los documentos tratan diversas nociones. Es muy raro que un texto trate una sola noción: por el contrario, la riqueza de una información es el resultado, con frecuencia, de la yuxtaposición e integración de varios conceptos de los que el autor muestra las relaciones. Esa integración constituye el tema del documento. Consecuentemente, los conceptos podrán estar enunciados, a su vez, con la ayuda de expresiones compuestas, ya sea de una o de varias palabras. Del mismo modo, las consultas de los usuarios se descomponen en un cierto número de nociones, que no necesariamente coinciden con las que tiene cada documento.

El segundo procedimiento es más depurado, requiere definir la estructura y organización de un vocabulario tipo antes de comenzar realmente la búsqueda propiamente dicha. En este caso tenemos no sólo la búsqueda de los conceptos presentes en el documento, sino también la traducción del lenguaje del autor a lo que habitualmente se llama lenguaje documental –un sistema convencional de signos que permite representar el contenido de los documentos con el fin de encontrar aquellos pertinentes en respuesta a preguntas sobre un tema (Rubio Liniers, 2001)–. Una primera distinción entre lenguaje natural y lenguaje documental puede apreciarse en la tabla que sigue (Tabla Nº 1).

Tabla Nº 1: Diferencias entre lenguaje natural y lenguaje documental.

Lenguaje natural Lenguaje documental

Comunicación inmediata

Simple

Conceptos del lenguaje cotidiano

Ambiguo

Equívoco

Arbitrario

No siempre lógico

Libre

Comunicación mediata

Compleja

Conceptos dados por definiciones

Preciso

Unívoco

Controlado

Lógico y asociativo

Normalizado

Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado el lenguaje en los documentos: la redacción, sus características lingüísticas, el tipo de lenguaje usado, el tratamiento de los conceptos, la terminología propia del tema tratado, el conocimiento del tema por parte del autor. Este último punto será importante a la hora de pensar los términos con que realizaremos la búsqueda, cuando relacionemos nuestros requerimientos con las palabras que el autor ha utilizado para expresar sus ideas.




5

2.2. Sistemas de organización de la información

En principio, debemos tener en cuenta al conjunto de documentos y sus características. También conviene pensar en los temas vinculados, auxiliares o marginales, al tema principal. En todo tema siempre existen ramificaciones y conexiones con otros, que se tratan de forma menos explícita. De allí que debamos tener en cuenta el ámbito global que los abarca. Se infiere que el tema principal se tratará en toda su extensión, mientras que el desarrollo de los temas complementarios se hará en función de su conexión con el primero. Como consecuencia de ello será importante considerar el grado de precisión con que debemos caracterizar al mismo.

Por otro lado, hay que pensar en el número y qué clases de documentos se utilizarán. No será lo mismo buscar en libros, que en artículos de revistas, actas de congresos, tesis..., o una mezcla de todos ellos. Concretando, habría que considerar:

1) el tema principal;

2) los temas vinculados;

3) los temas marginales y los auxiliares;

4) el ámbito de los temas;

5) el grado de precisión; y

6) el número de documentos.

El objetivo de cualquier sistema de recuperación de información es proporcionar información pertinente, con un máximo de utilidad y precisión y con un mínimo de gasto, en respuesta a una pregunta. Entre las numerosas clasificaciones de documentos, las más utilizadas son: 1) la alfabética; 2) la numérica; 3) la alfanumérica, 4) la geográfica, 5) la cronológica, 6) la sectorial. 7) la analógica, 8) la jerárquica, etcétera.

La clasificación alfabética comprende tantas clases principales como letras del alfabeto. Es una de las más sencillas y sin sutilezas. Presenta dificultades en el caso de palabras de múltiple ortografía y en las palabras o nombres compuestos. La clasificación numérica es igualmente simple y se sirve de nuestro sistema numérico. Entre ellas figura la Clasificación Decimal, concebida por Melvil Dewey en 1876.

La clasificación alfanumérica asocia las dos clasificaciones precedentes combinando letras del alfabeto y las cifras de la numeración decimal. Se conserva el alfabeto, lo que facilita la búsqueda, permitiendo las cifras la inserción de elementos nuevos posteriormente. La clasificación geográfica es también una clasificación clásica que se basa en la división por países, regiones, departamentos, ciudades, pueblos, etcétera. La clasificación cronológica es sencilla y cómoda, y en la práctica es muy utilizada asociada a la alfanumérica, u otras. De manera análoga, tanto la clasificación sectorial como la analógica y la jerárquica –más complejas y depuradas– permiten estructurar distintas configuraciones, que pueden adaptarse a una institución, a una técnica o a una rama particular de un ámbito específico del conocimiento.

El álgebra booleana –la teoría de conjuntos– y los programas informáticos de búsqueda permiten tener en cuenta la complejidad de los encabezados de las diferentes nociones conceptuales, contenidas en los distintos documentos.

2.2.1. Clasificación decimal universal –CDU–

La Clasificación Decimal de M. Dewey dio origen a la Clasificación Decimal




6

Universal –CDU–. A su vez, al concluir el siglo XIX surgió la Clasificación de la Biblioteca del Congreso –LCC– en los Estados Unidos.

Los diez grandes grupos de la CDU son:

0 = Generalidades (lo que no puede ser colocado de otra manera)

1 = Filosofía;

2 = Religión;

3 = Ciencias sociales y Derecho;

4 = [Vacante];

5 = Ciencias fundamentales;

6 = Ciencias técnicas y aplicadas;

7 = Bellas Artes, Artes aplicadas;

8 = Literatura;

9 = Historia y Geografía.

La aparición del grupo 0 demuestra claramente las dificultades de la clasificación (una de las cualidades de una buena clasificación es eliminar las imprecisiones en las ubicaciones). Dividida originalmente en diez clases, cada una de ellas contiene diez divisiones, hasta el cuarto decimal y un índice alfabético completa las tablas ideológicas. Los autores y los indizadores conservan la división decimal y afinan el método previendo la posibilidad de expresar, no sólo la subordinación de una idea a otra, sino también la asociación de puntos de vista conexos y diversas relaciones.

El método contó, en su momento, de un inmenso éxito, ya que permite obtener un sistema arboriforme de clases encasilladas, que posibilita afinar la indización hasta el nivel deseado. Cada documento tiene su lugar en una "casilla conceptual" que puede ser todo lo pequeña que se desee y que sólo debe ser explorada durante la búsqueda, lo que reduce considerablemente las operaciones.

La división de las materias se hace desde lo más general a lo más específico y preciso, con números cada vez más altos. Por otra parte, siempre se puede insertar un nuevo elemento conceptual sin modificar el orden de los elementos existentes. Ejemplo de clasificación para el área de educación, en la C.D.U. tendremos:

3: Ciencias Sociales

37: Educación;

371: Organización educativa, métodos de enseñanza

371.2: Alumnado;

371.27: Métodos de evaluación;

371.275: Autoevaluación;

Para los documentos vinculados a la autoevaluación, se puede crear un nuevo apartado, por ejemplo:

371.275. 2: autoevaluación en la educación a distancia

Su complejidad permite que un apartado pueda ser abordado con puntos de vista diferentes. Para nuestro ejemplo partimos de 371 métodos de enseñanza, pero podríamos llegar a esta misma ramificación partiendo de otras nociones. Como puede apreciarse, cuanto mayor es el número que caracteriza un documento más específico es




7

el concepto simbolizado.

Otro ejemplo interesante puede ser aportado por la Base de Datos TESEO. Esta base recupera información de las tesis doctorales leídas y consideradas aptas en las Universidades españolas desde 1976 usando descriptores según la Nomenclatura Internacional de la UNESCO para los campos de ciencia y tecnología. Así en el ámbito de la educación la nomenclatura especifica:

58: pedagogía

5801: teoría y métodos educativos

5801.06: evaluación de alumnos

Las clasificaciones universales –CDU, LCC, UNESCO– muchas veces resultan poco pertinentes como único lenguaje de recuperación ya que parten de una división del conocimiento que tiene en cuenta los "puntos de vista" de las disciplinas científicas y no incluye la interdisciplinariedad y la especificidad actual. Consecuentemente, su estructura jerárquica dificulta la combinación de los múltiples aspectos de una investigación y no siempre permite recoger temas muy específicos, o novedosos.

2.2.2. Tesauros

En el campo de las Ciencias de la Información, un Tesauro es un vocabulario controlado que permite el análisis y la recuperación de documentación especializada. Sus ventajas son la especificidad de sus términos y sus posibilidades de combinación de temas relacionados entre sí de distinta manera. Consecuentemente, es un sistema de organización del conocimiento, cuyos términos de indización se estructuran en un sistema de relaciones explícitas.

Un tesauro de descriptores es una lista estructurada de enunciados de conceptos. Dichos enunciados buscan representar, de forma unívoca, el contenido conceptual de los documentos y de las preguntas en un sistema documental. Un tesauro multilingüe ofrece otra ventaja: las correspondencias entre conceptos idénticos expresados en diferentes lenguas permiten comenzar la búsqueda en la lengua del usuario y encontrar los documentos indizados en cualquiera de las lenguas del mismo.

Habitualmente, el mismo concepto puede expresarse mediante varios sinónimos o términos muy próximos –por ejemplo, educación, sistema educativo–. Sería muy difícil encontrar un documento indizado bajo cualquiera de esos términos a partir de una pregunta referente a uno de sus sinónimos. Otro ejemplo: prensa puede significar tanto una máquina para comprimir como, en sentido figurado, una imprenta, el conjunto de las publicaciones periódicas, o las personas dedicadas al periodismo. Esta homonímia nos remitiría a documentos sin ninguna relación con el tema que nos interesa. Otro de los objetivos de un tesauro consiste en evitar los inconvenientes derivados de la homonímia: todos los descriptores se sitúan en un contexto determinado, de forma que su significado sea unívoco.

Consecuentemente, todo tesauro tiene un vocabulario de indización conformado por descriptores e identificadores. Ambos son términos que permiten describir el contenido de los documentos. También se incluyen no descriptores –sinónimos o cuasisinónimos de los descriptores– cuya función es remitir al término que se usa.

Descriptores: palabras o expresiones que designan sin ambigüedad los conceptos constitutivos del tesauro; por ejemplo sector educativo.




8

No-descriptores: palabras o expresiones que designan, en lenguaje natural, el mismo concepto, por ejemplo, sistema educativo, o conceptos equivalentes –educación–.

Por su parte, los identificadores o nombres propios, representan una entidad individual y única. Si bien los tesauros incluyen algunos identificadores, todas las bibliotecas se ven obligadas a redactar la mayoría de ellos, independientemente del tesauro. Los identificadores pueden ser de ocho tipos:

- Identificador de persona: San Martín, José de (1778-1850).

- Identificador de dinastía o familia: Kennedy, Familia.

- Identificador de ente corporativo: UNESCO; Argentina, Ministerio de Educación, Ciencia y Tecnología.

- Identificador de reunión: Congreso Iberoamericano de EducaRed (2005: Buenos Aires).

- Identificador de título de obra: Cien años de soledad.

- Identificador de lugar geopolítico: Córdoba (Argentina: provincia); Córdoba (España: provincia).

- Identificador de lugar geofísico: Los Andes (cordillera), Nahuel Huapi (lago).

- Identificador de período: Edad Media; Renacimiento.

A su vez, un calificador es una aclaración que permite distinguir un descriptor de sus homónimos o términos polisémicos. Por ejemplo:

- Mercurio (deidad)

- Mercurio (elemento químico)

- Mercurio (planeta)

Por último, están las relaciones semánticas: relaciones vinculadas al sentido de los términos –relaciones entre descriptores y no-descriptores–, y relaciones de los descriptores entre sí. En un tesauro se hacen explícitos diversos tipos de relaciones: 1) las relaciones de equivalencia, 2) las relaciones de jerarquía y 3) las relaciones de asociación.

Los principales tipos de relación que se utilizan, son:

1) Jerarquía: documentos sobre transporte público conducirán automáticamente a recibir información sobre, por ejemplo: tren, colectivo, ómnibus, coche, subterráneo, autobús, etcétera.

2) Sinonimia: siguiendo el ejemplo anterior, los términos subterráneo y colectivo pueden ser significativos para un argentino, pero otros usuarios podrían estar más relacionados con la palabra metro, o autobús, respectivamente.

Ejemplo: colectivo: utilizar autobús.

autobús: empleado en lugar de colectivo.

3) Asociación: una respuesta comprensiva debe tener en cuenta términos explícitamente relacionados con la búsqueda, por ejemplo: tren y vapor (o electricidad); ómnibus y terminal.




9

Si bien no son relaciones semánticas también aparecen en los tesauros:

4) Indicadores homógrafos: relación que permite distinguir el sentido.

Ejemplo: seno: matemáticas.

seno: biología.

5) Indicadores de función: evitan las falsas combinaciones

Ejemplo: 1) historia de la geografía.

2) geografía de la historia.

Los dos descriptores elegidos en los dos casos no tienen el mismo significado y en la búsqueda no saldrán, por lo tanto, los mismos documentos. Para evitar esa situación se aplica un código que los une y que suele indizarse así:

historia (1) geografía (2),

geografía (1) historia (2).

6) Polisemia: se evita mediante mayor precisión relacionada con la palabra.

Ejemplo: medio (geográfico).

medio (acuoso).

Dado al carácter ambiguo del lenguaje natural, muy frecuentemente una noción puede expresarse a través de varias palabras o expresiones sinónimas. Inversamente, una palabra, o una expresión polisémica, expresa varias nociones. Cabe tener en cuenta que distintos significados de una misma palabra es una característica de la terminología científica e incluso en Educación es el indicio claro de la existencia de distintas posiciones y modelos conceptuales. Las posibles homonimias, sinonomias, polisemias, así como el uso de metáforas, no siempre son resueltas por los lenguajes documentales.

7) Índices permutados

M. Taube idea en 1958 el sistema de indización por términos del lenguaje natural extraídos de los títulos y R. Lhun, en 1959, crea los índices permutados KWIC que contienen todos los términos del tesauro, tanto decriptores como no descriptores, alfabetizados por todas las palabras significativas que contienen.

Actualmente hay programas informáticos que incluyen procedimientos para la localización de las palabras clave:

1) en su contexto –KWIC– (Key Words in Context): son palabras significativas en el contexto. Cada palabra clave buscada aparece subrayada en medio de un pequeño contexto,

2) fuera de contexto –KWOC– (Key Words out of Context): cada palabra clave buscada aparece fuera de su contexto,

3) términos seleccionados del título –KWAC– (keyword and context index): es una lista de palabras seleccionadas del título.

Por último, debe tenerse en cuenta que los tesauros:

1) se construyen en función de un conjunto posible de documentos que pueden aparecer sobre un tema, es decir, se considera el tema como caso general, de forma impersonal, anónima, objetiva e intemporal. En cambio, nuestra estrategia de búsqueda se diseña con el conjunto de términos necesarios para nuestro trabajo. En estos casos, el modo de tratar la información contenida en esos documentos es más personal, subjetiva y temporal.




10

2) no tienen por qué ser completos, en el sentido de abarcar todo el conocimiento. Generalmente se limitan a un área temática específica, y desde cierta perspectiva específica. Por ello existen innumerables tesauros específicos. Sirvan como ejemplo: el ERIC, que suministra información, recogida por el Education Resources Information Center del Departamento de Educación de Estados Unidos; el Tesauro de la UNESCO; el Boletín Internacional de Bibliografía sobre Educación –BIBE–, etcétera.

2.2.3. Indización manual o automática

En términos generales podemos distinguir tres procedimientos de indización diferentes, a saber:

1) Indización manual: es la realizada por personas sin ninguna intervención informática (algo difícil de aceptar actualmente).

2) Indización semiautomática: es la realizada como interacción entre hombre y programa informático, que presentan al indizador las palabras que ha extraído del texto y que sus algoritmos de funcionamiento ofrecen como relevantes, y la persona toma la decisión de cuales se conservan en el sistema.

3) Indización automática: es la realizada por programas informáticos sin intervención humana mediante algoritmos basados fundamentalmente en técnicas de asignación de pesos a las palabras, construcción de tablas de asignaciones y consideraciones sobre la proximidad de las palabras dentro del texto, dentro de cada párrafo y dentro de cada línea. Puede dar resultados aceptables, pero es difícil de afinar y ajustar dado que cada conjunto de términos tiene características particulares que lo diferencian de los demás.

Este método y el anterior suelen utilizarse actualmente, sobre todo en la indización de documentos digitales.

2.2.4. Distintos documentos

Los documentos que podemos utilizar provienen de cinco tipos de fuentes de información:

1) documentos de carácter primario: artículos de revistas científicas y de información general sobre enseñanza y universidad, noticias de prensa, monografías, publicaciones de universidades e instituciones dedicadas a la política y gestión educativa, universitaria y científica,

2) otros documentos primarios: literatura gris –informes y documentos de trabajo no publicados de instituciones y organismos públicos y privados de carácter nacional e internacional–,

3) documentos secundarios y referenciales: guías y directorios de universidades, memorias, anuarios, planes de estudio, etcétera,

4) otros documentos secundarios: bibliografías y bases de datos de educación como el BIBE –Boletín Internacional de Bibliografía sobre Educación–, el ERIC Database, Bulletin Signaletique Sciences de l´Education, las Bases de datos del Ministerio de




11

Educación, de las universidades, etcétera, y

5) lenguajes documentales: el ERIC Thesaurus, el Tesauro de la Unesco, el Tesauro Europeo de la Educación de la Comisión de las Comunidades Europeas y del Consejo de Europa, etcétera.

El trabajo de indexación debería seguir, idealmente, los siguientes criterios:

a) relevancia: la determinación de los conceptos relevantes: las principales ideas discutidas en ese documento.

b) pertinencia: distinguir los conceptos relevantes de los conceptos derivados.

c) especificidad: usar siempre el término más adecuado, respetando en lo posible el lenguaje del autor. Esta condición apunta a las relaciones entre los términos y su interpretación.

d) exhaustividad: utilizar tantas palabras como sean necesarias para abrir los aspectos o temas del documento.

2.2.5. Distintos indizadores

A su vez, los datos para la búsqueda pueden estar organizados por:

1) el autor del documento,

2) una figura externa al documento –un indexador, o un programa informático –, o

3) el mismo lector-buscador.

1) el autor del documento

Como dijimos, es muy raro que un documento trate una sola noción: por el contrario, la riqueza de una información es el resultado de la inclusión de varios conceptos. Pero muy pocas veces es el autor el que define los conceptos y muestra las relaciones con una o varias palabras, tal como lo solicita el trabajo de indexación.

2) una figura externa al autor del documento –un indexador, o un programa informático–

Si bien la tarea de indexar se ajusta a la personalidad del indexador, es preciso aclarar que diversos indexadores –un experto (habitualmente no interesado en esta tarea), o un estudiante– no aseguran la misma coherencia y eficacia en la indexación. Consecuentemente, esas indexaciones no necesariamente reflejan el mismo juicio de valor acerca del documento y la visión global que surge de la consideración del campo temático.

3) el mismo usuario-buscador

Obviamente, es el usuario-buscador el que subjetivamente le da sentido a toda esa configuración. En este caso no sólo hay una organización estructural que garantiza el significado del documento, sino que hay una organización personal que es la que orienta la búsqueda. Los mismos datos pueden ser organizados de maneras muy diferentes y todas ellas significativas. El orden y la dirección que se dé a los datos pueden acercarnos o alejarnos de la solución. Obviamente, las tecnologías de




12

gestión de la información facilitan el desarrollo de esta capacidad organizativa, en lugar de fijar y reproducir la organización impuesta a los datos por el autor o por el indizador.

Una cuestión sumamente importante, relacionada con los casos anteriores, está vinculada al conocimiento de la terminología del tema y el uso de los conceptos por parte del autor. Si éste maneja la terminología, la recuperación podrá realizarse sin dificultades. Si el autor no utiliza la terminología, está incorporando nuevas expresiones, o si el campo es interdisciplinario, la búsqueda y recuperación de los documentos no será confiable.

A pesar del uso de un buen lenguaje documental, la indización –como todo trabajo intelectual– tiene una alta dosis de subjetividad. Dos o más personas con el mismo modelo conceptual pueden disentir de cuáles son los temas importantes de un trabajo o de los descriptores que deben representarlos. Incluso, una misma persona puede tener criterios diferentes en distintos momentos.

Aún así, creemos que es más fácil poner de manifiesto las características de un autor, que las características de búsqueda de un usuario-buscador, ya que:

1) no es siempre el mismo –psicología, interés–,

2) actitudes cambiantes: hoy formula sus preguntas de una manera, y mañana se expresa de otra, y

3) cambios en el enfoque del tema.

¿En qué forma se debe utilizar un término, o qué interpretación hay que hacer de la lógica que otra persona le ha conferido a ese término?

¿Qué ocurre cuándo se efectúa una pregunta, a simple vista sencilla, pero que da lugar a situaciones y contestaciones diferentes?

¿Qué ocurre cuándo se opera con otro idioma, a simple vista sencillo, pero que da lugar a situaciones y contestaciones diferentes a las esperadas?

¿Qué ocurre cuándo se opera con distintos modelos conceptuales, que dan lugar a situaciones y contestaciones diferentes?

2.5. La (des)organización de la Web

La WWW –World Wide Web– es un medio de información y comunicación, inmenso, complejo y flexible. Ciertos atributos, tales como el carácter hipertextual y el uso de elementos multimediales, estimulan determinados modos de organización y obtención de la información, o la comunicación, y desalientan otros porque no es neutral en su estructura (Burbules, 2001).

En la Web no tiene por qué existir una concordancia entre lo que un autor aporta y lo que el usuario final recibe. El primero puede escribir un artículo y el segundo obtener una página web que incluye dicho artículo, pero también otros elementos. Por ejemplo, en una página podemos encontrar: el artículo, un menú de navegación, un bloque de comentarios, un cuadro de búsqueda, un formulario de sugerencias, etc. Y, por supuesto sin tocar el contenido original, el resultado de la búsqueda podría ser otro, tanto dentro como fuera del contexto de las páginas web.

También una publicación final puede responder únicamente a un fragmento de un contenido original, a la totalidad de varios contenidos simultáneamente, y a todo el rango




13

de ocurrencias posibles entre ambos casos.

La naturaleza heterogénea del web hace difícil la adopción de un sistema de organización rígidamente estructurado. Por esta razón, el intento de encontrar un sistema único para organizar los contenidos heterogéneos de un sitio web es una tarea de difícil solución.

Por otra parte, el concepto de "organizado" cambia de un usuario a otro. Lo que para nosotros puede resultarnos muy "lógico" puede que para otra persona no lo sea.

Un sitio bien diseñado, que refleje la existencia de una gestión de contenidos permitirá:

- Almacenar diferentes versiones de cada documento.

- Compartir y actualizar documentos a varias personas en diferentes entornos y con conocimiento desigual sobre el sistema.

- Almacenar un mismo documento en formatos diferentes (XHTML, PDF, etc.).

- Contener documentos en formato multimedia

- Proporcionar una navegación flexible a partir de la estructura de organización de la información (secuencial, jerárquica, hipertextual, etc).

- Disponer de un sistema flexible y eficiente de búsqueda, indexación y consulta de documentos.

Para Gómez Reyes (2002) “si se estudia el fenómeno de Internet y de toda la información que ella contiene, se encuentra que sus principales dificultades radican en que no siempre es posible recuperar la información existente sobre un tema determinado porque no se realiza un adecuado proceso de clasificación e indización o se dificulta la recuperación de la información ubicada en una página web por una inadecuada organización de los contenidos”.

2.5.1 Esquemas de organización de la información en la Web

Diariamente nos encontramos navegando por medio de diferentes esquemas de organización: la guía telefónica, diccionarios, nuestra agenda, los diarios, carteleras, etcétera. Todos ellos cuentan con una estructura que facilita el acceso a la información contenida en ellos, se trata de los esquemas de organización de la información.

En la Web existen esquemas de organización de la información, aunque a veces no nos percatemos de ello:

- Esquemas alfabéticos, es el predominante en enciclopedias, diccionarios, ventas en línea, etc.

- Esquemas cronológicos, los encontramos en los diarios, las carteleras de televisión, los archivos de revistas electrónicas, etc.

- Esquemas ambiguos, dividen la información en categorías que proponen definiciones exactas. Están impregnados por la ambigüedad del lenguaje y de la subjetividad humana. En estos esquemas alguien que no es el usuario ha tomado una decisión sobre cómo agrupar los elementos, por ello este esquema soporta un modo "casual" de buscar información a partir de la agrupación de los elementos de manera que puedan comprenderse intelectualmente. Entre los esquemas ambiguos, los más comunes son los que organizan la información:

- según el asunto o la materia,




14

- según los intereses de la audiencia potencial,

- a través de metáforas de la vida cotidiana.

Pero, aun suponiendo que todos los sitios disponibles en la Web se encuentren organizados de alguna forma –según la visión del emisor– la Web se vuelve telaraña –y en ese sentido un espacio desorganizado– a partir de la vinculación sin patrones entre los diversos sitios –o páginas de éstos–. Internet nos ofrece una nueva organización que no es rígida, que crece y se modifica diariamente, se autotransforma y por lo tanto tiene la flexibilidad de lo imprevisible y de las incertidumbres En este espacio “global” los contenidos están poco estructurados y organizados y existen necesidades acuciantes de un ordenamiento, clasificación y análisis para facilitar su búsqueda, uso y la disminución del consumo de tiempo para encontrar aquello que realmente necesitamos.

Navegar en la Web nos proporciona enormes cantidades de información, transitamos constantemente del orden al desorden y viceversa. Lo hacemos a través de un sistema de redes que se interconectan entre sí, para proporcionarnos acceso a esa gran cantidad de información, o para permitirnos la comunicación con personas apartadas geográficamente, que se acercan inmediata y simultáneamente mediante Internet. Estamos hablando de experiencias tecnológicas que se insinúan impredecibles, recorridos llenos de incertidumbres, con innumerables posibilidades. Estamos experimentando transformaciones en los procesos tanto de información como de comunicación, por lo que cabe preguntarnos:

¿Cómo recuperar en un espacio (des)organizado?

¿Son las herramientas de búsqueda las que nos ofrecerán un orden a partir del desorden?

¿Es la Web semántica la solución?

2.6. Algunas conclusiones

En los últimos años, se han planteado nuevos desafíos en relación con la manera de organizar la información. La era digital ha aportado la posibilidad de gestionar el audio, el video, la fotografía y los textos de manera totalmente integrada.

Como hemos visto, hay diversos tipos de índices: alfabético, por categorías –tipo CDU–, por materias, por palabras-clave –tipo UNITERM, o KWIC–, por descriptores –tesauros–, etcétera. Para facilitarnos la organización de la información y, consecuentemente, la búsqueda y la recuperación, la indización puede hacerse sobre: 1) las palabras, 2) los conceptos, o 3) los temas, lo que genera tres tipos de lenguajes documentales. Podemos distinguir en estos lenguajes la siguiente jerarquía en complejidad creciente:

palabras conceptos temas

1) Indización sobre las palabras –palabras claves–.

Ventajas: la lista de los términos del vocabulario documental puede ser reducida porque, gracias al poder combinatorio de las palabras, resulta posible expresar un considerable número de conceptos y de temas.

Inconvenientes: las palabras aisladas pueden carecer de significación propia. Cuando los conceptos están representados por una combinación de palabras, existe el riesgo de que aparezcan falsas combinaciones durante la búsqueda.




15

2) Indización sobre los conceptos: los términos de indización son los descriptores. En la mayoría de los lenguajes documentales, los descriptores se expresan con la ayuda de una a cuatro palabras, en un promedio que oscila en el orden de dos palabras.

Ventajas: los descriptores tienen siempre significación propia y es posible establecer entre ellos relaciones semánticas destinadas a encontrar la designación de un concepto partiendo del lenguaje natural. También hay menos riesgo de falsas combinaciones que con las palabras.

Inconvenientes: la posibilidad de obtener falsas combinaciones subsiste. Para eliminarlas completamente habría que desarrollar diferentes técnicas y algoritmos basados en programas informáticos.

3) Indización sobre los temas: es el método utilizado en la Clasificación Decimal Universal (CDU). Cada clase contiene diversas divisiones y un índice alfabético completa las tablas con las referencias más importantes. Un tema puede incluir de uno a cuatro, o cinco, conceptos y expresarse con el auxilio de una a quince palabras.

Ventajas: un documento puede ser indizado con mucha precisión si se trabaja con un número restringido de encabezamientos. Prácticamente, no hay posibilidad de falsas relaciones.

Inconvenientes: cuando la relación de los términos es exhaustiva, hay que contar con un número muy elevado de encabezamientos. Para evitar la manipulación de lenguajes documentales demasiado voluminosos se suele limitar el número de encabezamientos, en detrimento de la precisión de la indización.

Los lenguajes basados en temas –cuyos términos de indización son los encabezamientos de materias– aparecieron en una época en que la división del conocimiento partía de los "puntos de vista" de las disciplinas científicas y no incluía los conceptos de la interdisciplinariedad. Cuando fue necesario profundizar en la indización, esos lenguajes ya no resultaron fácilmente adaptables. A su vez, los lenguajes fundados en conceptos, o descriptores, constituyen la solución elegida por las Ciencias de la Documentación. Como toda solución humana, presentan sus inconvenientes, pero es sabido que en la recuperación de información –ni en ninguna otra situación real– no existe la solución perfecta ni óptima, sino soluciones satisfactorias, teniendo en cuenta los objetivos perseguidos y las dificultades a vencer. A menudo, la búsqueda de información es iterativa e interactiva. Lo hallado en los momentos iniciales de la búsqueda puede influir sobre lo que se halle más adelante. En todo este proceso de búsqueda de información están presentes elementos del conocimiento asociativo y el aprendizaje.

El entusiasmo con que fueron recibidos los tesauros y los programas informáticos de búsqueda, como es de imaginar, llevó a que no todos adopten el mismo sistema. Unos prefieren el Dewey, otros la CDU, otros el Catálogo por abecedario del Congreso de EEUU. Y no faltan quienes sostienen que clasificar y catalogar datos tan efímeros es una pérdida de tiempo. Ahora se han incorporado los programas informáticos –los motores de búsqueda– que facilitan la recuperación con distintos enfoques simultáneos.

Pero sea cual fuere la organización utilizada, hay que considerar que toda clasificación:




16

1) es restrictiva, ya que siempre es posible admitir otra clasificación con otras ventajas y desventajas.

2) debe ser satisfactoria conceptualmente y permitir búsquedas rápidas y seguras (obviamente, una clasificación no es inmutable).

3) debe crear un vínculo entre la persona que emite el mensaje y la que lo recibe –un metalenguaje que armonice pregunta y respuesta–.

Se percibe claramente que siempre se podrá generar una estrategia de búsqueda eficaz, que indicará qué términos deben ser usados y en qué forma deben ser expresados. De eso hablaremos a continuación.




17

3. Los usuarios y los contenidos en Internet, hoy

Uno de los atributos más destacado de Internet reside en ser el primer medio o conjunto de medios de comunicación masivo que permite la comunicación de doble vía: cualquier persona puede con relativa facilidad ser receptora y emisora de mensajes, y además, Internet parece encarnar un sueño: el acceso de todos a toda la información en todo momento y desde cualquier lugar, aunque ello implique algún tipo de regulación y la consideración de ciertas normas y convenciones consensuadas para su acceso y su uso. Como expresa Raghavan (2005), Internet es la colección más grande de conocimiento, noticias, opiniones, rumores, falsedades, propagandas y contradicciones que la humanidad ha montado. Cada página Web puede estar escrita en cualquier idioma por personas con diferentes niveles de educación, cultura, interés y motivación. Por mucha tecnología que definamos o que construyamos en los próximos años para continuar almacenando información, probablemente no resolvamos el problema del exceso y la recuperación de información. Todo parece indicar que la información se multiplicará de manera mucho más rápida que la capacidad que tenemos de generar tecnología –y metodologías- para buscar, recuperar y manejar el flujo de información en exceso y dar respuesta a las necesidades de información.

¿Internet global o el mito del acceso democrático, la diversidad cultural y el plurilingüismo?

Según la organización Internet World Stats (Mayo, 2011) alrededor de 2100 millones de personas –cerca del 30,3% de la población total- se conectan a Internet. De este porcentaje, el acceso a Internet por lengua nativa (primera lengua) se observa en la Figura Nº 1.

Fig. Nº 1: Personas conectadas a la Web según lengua nativa (Internet World Stats, 2011)




18

Se consideran usuarios de habla inglesa a los habitantes de Estados Unidos, Gran Bretaña, Irlanda, Canadá, Australia, Nueva Zelanda, Sudáfrica y Filipinas. Los usuarios de habla hispana son, aproximadamente, unos 423 millones y corresponden a España, Venezuela, Argentina, Chile, México, la mayoría de los países de América Central y casi toda Sudamérica –excepto Brasil–, así como los residentes en Estados Unidos. El 39% –165 millones– de personas de habla hispana acceden a Internet, lo que representa el 7,8% del total de usuarios de la red. El número de usuarios que hablan español como primera lengua creció el 807,4% en los últimos once años (2000-2011) (Internet World Stats, 2011).

El otro dato que debe mencionarse es el idioma de los contenidos. En el espacio Web, el porcentaje de páginas en inglés está por debajo del umbral del 50%, lo cual contradice el discurso dominante que considera el predominio del inglés como un hecho irreversible y cantidades de referencias que persisten a atribuirle un peso del orden del 80% (Funredes, 2005) (Tabla Nº 2). En general, pocos estudios suelen tener en cuenta los correos, los foros electrónicos, las bases de datos o páginas que no son públicas, por ello “la diversidad lingüística en el ciberespacio es objeto de un animado debate” (Unesco, 2005).

La presencia del español en Internet aumentó gracias a los tres segmentos de producción de contenidos que son España, América Latina y los Estados Unidos. Sin embargo, la representación del español no ha llegado aún a un nivel acorde con su población en el mundo real.

Tabla Nº 2: Producción de contenidos por idiomas

Producción de

contenidos (funredes, 2009)

Total de personas por idioma nativo

(ethnologue, 2005; IWS, 2010)

Personas conectadas por idioma nativo

(IWS, 2011)

INGLÉS 45.0% 375 millones 26,8%

ALEMÁN 5,9% 96 millones 3,6%

FRANCÉS 4,41% 337 millones 3%

ESPAÑOL 3,8% 420 millones 7,8%

PORTUGUÉS 1,39% 247 millones 3,9%

El mapamundi de la diversidad lingüística no coincide con el de la densidad de población: 96% de las lenguas son habladas por 4% de la población mundial, y más de 80% de las lenguas son endémicas y están confinadas a un solo país. Únicamente veinte idiomas del mundo cuentan varios cientos de miles de hablantes en diferentes países. Aunque las cifras varían en función de los métodos de recuento -los datos de Linguasphere, SIL, Ethnologue, Encyclopédie Millenium son sensiblemente comparables, aunque algunas de estas organizaciones para las grandes lenguas suman a los que las tienen como lengua materna y a quienes las hablan como una segunda lengua-, la Encyclopédie Millenium (1998) estima que cerca de la mitad de la población mundial se expresa en una de las ocho lenguas de mayor difusión.

Por otra parte la Organización de las Naciones Unidas para la Educación, la




19

Ciencia y la Cultura (UNESCO) ha publicado un informe titulado "Hacia las sociedades del conocimiento" (noviembre 2005) en el que alerta el riesgo de desaparecer, a lo largo de este siglo, que tienen cerca de un tercio de los 6.000 idiomas que se hablan hoy en el planeta, posibilidad agravada por el uso de tecnologías como Internet, dado que estas lenguas no se escriben, sino que son exclusivamente orales.

La UNESCO explica que Internet, a pesar de la ventaja que conlleva, puede acelerar la "extinción" de ciertos idiomas al favorecer la "homogeneización" en lugar de la diversidad: "Tres de cada cuatro páginas en Internet están escritas en inglés. Sin embargo, el número de cibernautas cuya lengua materna no es el inglés excede del 50 por ciento, porcentaje que sigue aumentando", indica el documento (Figura Nº 2).

Fig. Nº 2: La extinción de los idiomas en Internet

Hasta ahora, la mayoría de las lenguas que existen están ausentes de Internet en beneficio de las ocho lenguas más utilizadas del mundo, encabezadas por el inglés. Esto no sólo margina a miles de culturas, sino que constituye una posible amenaza para la diversidad de los contenidos.

Según el Banco Mundial los servicios de telecomunicaciones en los países más desfavorecidos están creciendo a un ritmo "explosivo", lo que favorece que la división digital entre los países más desarrollados y los más pobres se estén reduciendo con bastante rapidez (La Nación, 2 de marzo de 2005). Pero, si bien este “supuesto” crecimiento permite difundir una masa considerable de información y conocimiento, la capacidad de acceso y asimilación que permite tratar esa avalancha creciente de informaciones y conocimientos es muy desigual, según los grupos sociales y los países.

¿Es, entonces, la ficción de la igualdad de oportunidades?

en peligro de desaparición

52% representadas en Internet

10%




20

4. Recuperación de información

¿Cómo buscar en la Web?, ¿Cómo recuperar información en la Web?

¿Cómo se reconocen las configuraciones que aseguran la “calidad” de la información?

¿Cuánto tiempo se pierde buscando dónde está la información?

Coincidimos en que:

1) la cantidad de información nos supera;

2) la información se estructura en forma más compleja;

3) existe variabilidad espacial y temporal;

4) los medios de comunicación son imprecisos;

5) esos medios tienen un enorme poder en nuestra sociedad.

Entonces, tenemos que concentrarnos en:

1) eliminar rápidamente la información poco confiable o repetitiva;

2) buscar los puntos de imprecisión, para poner a prueba la consistencia de la realidad que se nos plantea;

3) resistirnos a aceptar la tendencia mayor, sin una crítica lo más objetiva posible.

Mucha información, ¿es sólo cuestión de números?

A fin de tener una idea más concreta de lo que significa buscar en la Web, se hace necesario aclarar algunos. Bergman (2000) distingue dos ámbitos en la Web:

a) la Web visible cuya información puede recuperarse utilizando las

herramientas de búsqueda tradicionales, y

b) la Web invisible o Web profunda a la que no tienen acceso los motores de búsqueda. En este punto es interesante el aporte de Codina (2003) que describe al nombre de Internet invisible como inadecuado, ya que si ese concepto refiere al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público, “debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado, pero claramente alejado de la capacidad sugeridora del término invisible”. (Codina, 2003)

A su vez, Sherman y Price (2001) caracterizan cuatro tipos de contenidos invisibles en la Web profunda, que llaman: 1) Web “opaca", 2) Web “privada", 3) Web “propietaria”, y 4) Web “realmente invisible”.

La Web opaca se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están debido a razones de extensión de la indización. La Web privada consiste de sitios que podrían estar indizados en los motores de búsqueda, pero que son excluidos en forma deliberada, porque sus páginas están protegidas por contraseñas o porque contienen restricciones para esos dispositivos de búsqueda. La Web propietaria incluye a todas aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea en forma gratuita o paga. Y la Web realmente invisible, que se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores.

Según datos de Nefcraft (agosto, 2011) en la Web se registran alrededor de 463




21

millones de sitios. De este universo y según un estudio de la Universidad de Iowa (Gulli y Signorini, 2005) la Web indizada –la parte de la Web a la que los buscadores pueden acceder– es de alrededor de 11.500 millones de páginas. En cuanto a la Web profunda, la investigación de Bergman (2001) ha estimado que la información contenida en la Web invisible es aproximadamente 550 veces mayor que la de la web superficial y crece a mucha mayor velocidad. Un estudio de Cyveillance (2000) calcula que el tamaño de la Web profunda es 275 veces mayor que el de la Web visible mientras que estimaciones posteriores señalan que el tamaño de la Web invisible es sólo entre 2 y 50 veces mayor que el de la Web visible (Sherman y Price, 2001). Las diferencias en las cifras se deben a las diferentes metodologías utilizadas en las investigaciones. En cualquier caso, el valor de la información contenida en la llamada Web profunda justifica el estudio de sus formas de acceso.

En el año 2008 Google alcanzó 1 billón (10^12) de URLs únicas indexadas, pero lo cierto es que cada motor de búsqueda tiene un alcance diferente: el NEC Research Institute estimó que cada uno de ellos indiza no más del 16% de la Web visible, por lo tanto cuando los usuarios realizan sus búsquedas pierden la posibilidad de rastrear, no sólo en la Web profunda, sino también en el 84% de la Web visible.

El crecimiento constante de la Web excede a la capacidad de “rastreo” -crawl- de los motores de búsqueda y el escaso nivel de solapamiento entre buscadores justifica, tal vez, su proliferación, ya que cada uno va cubriendo diferentes áreas del espacio web, sin que por ahora sea técnicamente posible que alguno de ellos alcance la exhaustividad.

Por otra parte, es preciso desarrollar nuevos instrumentos que faciliten la localización de información relevante para quién la busca; en este sentido, los sistemas de bases de datos y los motores de búsqueda están experimentando una evolución constante.

¿Por qué es importante conocer acerca de los motores de búsqueda?

Dado el cambio y crecimiento constante de la Web, que ofrece nuevos contenidos cada día, conocer el modo de operar de los motores de búsqueda resulta crucial para encontrar respuestas a nuestras preguntas, focalizar nuestros esfuerzos y concebir nuestras estrategias de búsqueda.

Para Jaczynski (1999), existen dos métodos básicos a través de los cuáles los usuarios buscan información en la Web: a) preguntando –querying–y, b) explorando –browsing–.

Querying es una búsqueda basada en palabras claves, en la que el motor de búsqueda coloca la palabra –o combinación de palabras– clave en su índice de palabras y devuelve una lista ordenada de documentos.

Browsing es la navegación a través de vínculos hacia un tema de interés. Los usuarios suelen explorar cuando tienen objetivos generales o no pueden expresar sus objetivos explícitamente como combinación de palabras clave. Algunos estudios dan cuenta de la dificultad de los usuarios con los mecanismos de los motores de búsqueda, ya que la expresión booleana a veces no se acerca al lenguaje natural. Es así que la búsqueda de información resulta, en muchas ocasiones un proceso iterativo, en el que la respuesta a una pregunta produce una reformulación de la propia pregunta y por lo tanto de lo que realmente es relevante para el que busca.

Para avanzar en el tema de recuperación de información, nos vamos a centrar en:




22

Buscadores y metabuscadores

Directorios de información y portales

Agentes inteligentes

Bases de datos electrónicas

Cada uno de ellos tiene fortalezas y debilidades, así como características particulares y proveen diferentes servicios. Conocerlos y compararlos es importante para los usuarios, ya que ello les permitirá llevar adelante las estrategias adecuadas para optimizar su utilización. Podemos comparar los motores de búsqueda según:

A. las características de la búsqueda:

- Concepto de búsqueda: el motor no sólo busca la palabra clave, sino también sinónimos o similares.

- Exclusión: posibilidad de excluir resultados a partir de la inclusión de términos específicos

- Restricciones: búsqueda de términos contenidos en alguna parte de la página o dentro de una página especial (de imagen o video) o en sitios con dominios específicos (.com, .edu). Restricciones en cuanto a la fecha de creación o actualización de una página, así como la búsqueda en varios idiomas.

B. las características del motor:

- Tamaño: qué cantidad de páginas tiene indizada en su base de datos

- Lugares en el que busca: en toda la página, en el encabezado, en la URL, etc.

- Recursos indizados: además de la Web, recursos de Internet como newsgroup, e-mail, etc.

C. los resultados obtenidos:

- Métodos de ordenamiento o visualización: diferentes parámetros pueden ser utilizados para especificar el orden de los resultados

- Sugerencias de búsqueda: a partir de la búsqueda inicial

- Resultados similares: visualización de páginas con resultado similar

4.1 Buscadores

Un buscador es un programa en la que la labor de clasificación de las páginas se realiza de forma completamente automática.

Constan de los siguientes elementos:

- Arácnidos. Son programas cuya labor se centra en analizar la red e ir recopilando las páginas que residen en los distintos servidores Web a los cuales se van conectando. A medida que van recopilando las páginas las van “indizando” (registrar ordenadamente datos e informaciones, para elaborar su índice), extrayendo de las mismas las palabras clave más representativas (índices) que serán comparados con una serie de palabras clave en el proceso de búsqueda. Generalmente, para cada buscador existe un elevado número de estos programas, de forma que en un tiempo razonable se tenga analizado




23

un número significativo de servidores Web de la red.

- Portal. Espacio del sistema de búsqueda que es visible al usuario. Su función es el diálogo con el usuario, recibiendo sus consultas. Estas, por norma general, serán enviadas a otra computadora con una elevada potencia de cálculo cuya función es resolver la consulta en base a comparar los datos suministrados por el usuario con el contenido de la base de datos generada por los arácnidos. Tras la resolución de la consulta, los resultados son devueltos al portal para su presentación.

Las principales características de estas herramientas de búsqueda son:

- La búsqueda se realiza por palabras clave.

- Los resultados se presentan con una prioridad en función de la posición, proximidad y número de apariciones de las palabras clave.

- El proceso de clasificación de las páginas se realiza de forma automática.

- Baja relevancia en las respuestas.

La baja relevancia en las respuestas es consecuencia directa del hecho de que las páginas son clasificadas de forma automática.

Buscadores en la Web hay miles y con diferentes grados de importancia. No hay estudios actuales que indiquen el número exacto de buscadores, como tampoco de directorios y la posible combinación de los mismos.

Algunos de los buscadores más representativos son los siguientes:

AltaVista http://www.altavista.com/

Ask http://www.ask.com/

Hay que destacar que la rentabilidad económica de los buscadores inicialmente podría parecer muy discutible, al ser servicios que se prestan con carácter gratuito en la red. No obstante, su rentabilidad se basa fundamentalmente en dos aspectos: la mayoría de los motores de búsqueda destinan espacios específicos a posicionamientos pagos -Sponsored Links–. Mediante el posicionamiento pago los buscadores garantizan que el sitio será incluido en la sección Sponsored Links según una serie de términos o palabras clave relacionados con dicha página Este posicionamiento suele estar dado en función del precio pagado. Por otro lado, hay que tener en cuenta que cada vez un mayor número de empresas están montando lo que se viene en llamar “Intranets”', esto es, redes de computadoras con características muy similares a Internet pero cuyo acceso está restringido a los empleados de la empresa. Si la empresa es suficientemente grande, es muy probable que exista un elevado número de servidores Web suministrando información dentro de la Intranet. Empresas como AltaVista proporcionan el motor de búsqueda para construir un buscador que funcione en una Intranet, facilitando, de esta forma, el acceso a la información por parte de las personas que han de trabajar en ella.

4.2 Meta-buscadores

A veces resulta difícil encontrar lo que uno busca en la red, aún haciendo uso de buscadores. Cualquiera que haya realizado una búsqueda algo compleja en la red habrá encontrado que, dependiendo del buscador que utilice, el número y tipo de respuestas puede ser de lo más variado.




24

Generalmente, cualquier proceso de búsqueda en la red consta de los siguientes pasos:

1. Elegir un buscador

2. Describir la información de interés a través de palabras clave o tópicos, de acuerdo con la estructura particular de consultas que permita el buscador, el cuál la traducirá a una especificación formal interna, más fácilmente manejable.

3. Iniciar la búsqueda mediante procesos de equiparación con los índices disponibles.

4. Esperar (en general, salvo problemas de congestión de la red, la respuesta de los buscadores a las consultas es bastante rápida).

5. Analizar la lista de respuestas.

En función del número de respuestas obtenidas y de su interés, se refina la búsqueda volviendo al paso 2 o se elige un nuevo buscador, paso 1, repitiéndose el proceso.

Este proceso puede ser automatizado de alguna forma. Existen programas en la red –metabuscadores– que funcionan como buscadores, pero en donde el proceso de búsqueda se realiza contra un conjunto relativamente elevado de otros buscadores, integrando la información resultante de forma que obtengamos mejores resultados. El proceso de integración consiste, entre otras cosas, en eliminar la multiplicidad de las respuestas y establecer un orden en función de las respuestas proporcionadas por los buscadores y por el número de veces que el resultado haya aparecido en distintos buscadores.

En síntesis: los metabuscadores no disponen de una base de datos propia, sino que utilizan la información almacenada en las bases de datos de otros buscadores y directorios, es decir que hacen las búsquedas simultáneamente en varios motores.

Algunos de los meta-buscadores más utilizados son:

Ixquick http://ixquick.com/esp/

Dogpile http://www.dogpile.com

Metacrawler http://www.metacrawler.com

Se trata de metabuscadores que analizan las salidas suministradas por los buscadores tales como: Google, Yahoo! Search, Bing, Ask, About, MIVA, LookSmart y otros.

4.3 Otras estrategias: Google, Yippy

Hasta ahora, los buscadores de Internet se han dividido en dos grandes grupos. De una parte los robots de búsqueda que, como Altavista, rastrean automáticamente la Red y generan bases de datos enormes pero, como contrapartida, obligan al usuario a dominar opciones avanzadas de búsqueda si no desea encontrarse con listados de 50.000 páginas plagadas, además, de información-basura y desfasada. En el polo opuesto se encuentran los directorios, cuyas páginas están clasificadas por personas, lo que garantiza información de calidad pero, por desgracia, limitada en cantidad y, cada vez más, servida en función de criterios comerciales: hay empresas que pagan por aparecer primeras en la lista en los portales.

Google es el primer buscador que se sitúa en medio de estos dos extremos.




25

Mantiene todas las ventajas de un robot de búsqueda automática, pues consigue rastreos muy amplios, pero elimina el problema de la información de baja calidad y atrasada. Este avance lo logra gracias a que Google aplica como criterio principal para ordenar los resultados el número de enlaces que se dirigen desde los millones de páginas rastreadas hacia otras webs y no, como el resto de los buscadores automáticos, el número de veces que una palabra clave se repite en una página. Esto, en definitiva, consigue que sean los propios usuarios de Internet, mediante sus particulares selecciones de páginas favoritas en cada momento, quienes determinen el orden en el que aparecerán los resultados al realizar una búsqueda en Google. En teoría, los resultados de este buscador son siempre de calidad adecuada y actual.

Para ordenar documentos (decidir su importancia respecto de una consulta) Google utiliza un algoritmo propio denominado PageRank. El concepto básico del algoritmo PageRank es que una página es más importante en la medida en que más páginas apuntan hacia ella. Según el algoritmo la importancia de una página depende de:

(1) cuántas páginas apuntan a ella,

(2) la cantidad de enlaces en estas páginas, y

(3) cuántas y cuán importantes son las páginas que apuntan a la página.

Google está diseñado para ser una herramienta de búsqueda escalable eficiente y con un sistema altamente avanzado de ranking de páginas. El uso del algoritmo de PageRank le da una gran calidad a los resultados de búsquedas “comunes”, la enorme cantidad de datos, de lejos la colección más grande de páginas web del mundo, le permiten resolver eficazmente búsquedas “difíciles” mientras que el repositorio de páginas asegura que los resultados devueltos pueden ser accedidos y consultados por el usuario siendo a su vez de enorme valor como una colección histórica de los documentos en la web.

Por su parte Yippy es un metabuscador que basa su funcionamiento en la técnica de “Compilar información”: no se limita a volcar los resultados que envía cada buscador, sino que: (a) unifica resultados (o sea, elimina duplicados); (b) distribuye los resultados por grupos o pseudo categorías que el sistema de agrupación –clustering- es capaz de generar de manera automática. De esta forma ofrece más que la simple clasificación lineal por popularidad de los buscadores tradicionales, procesa los resultados antes de ofrecerlos al usuario.

Por último cabe agregar que los buscadores arrojan resultados sobre las búsquedas realizadas en sus propios índices y no sobre la web directamente. Esto último sería imposible debido al volumen de información y al tiempo requerido para realizar la búsqueda. El rastreo de páginas web que efectúan los spider o robots se realiza con periodicidad variable, por ello siempre existe una diferencia entre lo que pueden recuperar los buscadores y lo que realmente se encuentra en la web.

4.4 De los directorios de información a los portales

El directorio más antiguo y también el más visitado actualmente en la Web es Yahoo!. Tradicionalmente, los directorios de búsqueda han sido clasificaciones de recursos de información de la Web realizadas por personas en vez de forma automatizada. Son agrupaciones temáticas que permiten ir navegando a través de enlaces hipertextuales. La mayoría de los directorios contienen además un motor de




26

búsqueda que permite buscar sobre las categorías y los elementos dependientes de esas categorías.

Los directorios tienen dos formas de generar sus índices:

Captura pasiva, en la que los propios interesados, los administradores de los sitios web envían la información al directorio mediante un formulario porque les interesa aparecer en el directorio.

Captura activa, cuando es la propia organización que genera el directorio la que busca direcciones de acuerdo a unos criterios establecidos.

Este tipo de directorios recoge tan sólo las páginas principales de las diversas organizaciones. O sea, no indexa el contenido de todo el sitio Web sino que simplemente representa mediante la asignación a una categoría la actividad o las actividades que caracterizan al sitio Web (agencias de viajes, ventas de discos, universidades, etc.). El directorio lo que hace es guiar hasta un recurso, por organización o por tema, y el usuario luego tendrá que buscar en él.

Todos los directorios tienen también una opción que permite realizar búsquedas por palabras claves. Pero, la búsqueda se realiza no sobre todos los documentos de Internet sino sobre la base de datos del directorio, que a veces incluye no sólo las categorías sino también una pequeña descripción de muchos de los recursos. Últimamente muchos de los directorios existentes en la red se han ocupado de introducir sistemas de búsqueda más potentes o de realizar alianzas con alguno/s de los motores de búsqueda existentes en Internet.

Desde hace algunos años empresas como Yahoo han segmentado su actividad en zonas geográficas creando directorios con la misma filosofía en Argentina o en el Reino Unido o España. Otros directorios han segmentado su actividad de acuerdo a criterios temáticos en vez de geográficos creando directorios especializados en cine, en arte, en arquitectura, en biología, en medicina, en informática, etc.

4.4.1 Los portales

Los portales son sitios Web que ofrecen una serie de servicios a los navegantes: directorios de información, motores de búsqueda, correo electrónico, mensajería instantánea, chat, almacenamiento de información, etc. Existe toda una guerra entre los diferentes portales para captar al mayor número de internautas. La popularidad de un portal es un factor fundamental en su supervivencia ya que determina la cantidad de publicidad que puede aparecer en dicho portal.

Algunos portales educativos en español destacados:

Portal de las Américas (www.educoas.org)

El Portal de las universidades (www.universia.com.ar)

Educ.ar (www.educ.ar)

Portaldidáctico (http://www.portaldidactico.es)

4.5 Agentes inteligentes

La definición de qué es un agente inteligente no resulta fácil de establecer debido, en parte, a la dificultad para definir un concepto tan complejo como la propia inteligencia. Tradicionalmente se concebía un sistema inteligente como aquel capaz de pensar “como




27

un humano”, pero esta definición establece una dificultad inherente a la hora de evaluar un sistema como “inteligente” o “no inteligente” ya que no está establecido cual es verdaderamente el proceso de pensamiento humano.

Otra corriente de opinión es partidaria de establecer la inteligencia de un sistema no en función de su pensamiento, sino de su comportamiento. En este caso, un sistema sería catalogado de inteligente si exhibe un comportamiento similar al humano y esta similitud se establecería a partir de un test (test de Turing) en el cual un juez humano determinaría si el comportamiento de un agente es o no humano. Un sistema que pasa con éxito el test de Turing exhibe un comportamiento que a los ojos de un juez humano es catalogado como indistinguible del humano y por tanto de “inteligente”. En cualquier caso, en lo que sí hay coincidencia es que un agente inteligente debería poseer las siguientes características:

Reactividad: Un agente inteligente debe ser capaz de percibir eventos en el entorno y reaccionar ante ellos.

Proactividad: Un agente debe ser capaz de exhibir un comportamiento orientado a conseguir objetivos.

Habilidad social: Los agentes inteligentes deben ser capaces de interaccionar con otros agentes para satisfacer sus objetivos.

Autonomía: Un agente debe actuar y decidir según un criterio personal, eso sí para satisfacer las necesidades del usuario para quien opere.

En la frontera entre un agente inteligente y un metabuscador personalizado, encontramos a Copernic Agent –http://www.copernic.com–.

4.6 En síntesis

Como hemos visto, los buscadores y directorios se conforman y funcionan de manera diferente. Así, las formas de búsqueda más eficientes varían en unos y otros. Mientras que la búsqueda por palabras -querying- es más adecuada en los buscadores, la navegación –browsing- es más recomendable en los directorios. En general las herramientas hasta aquí descriptas tienen ciertas limitaciones que hemos detallado previamente y que podemos resumir de la siguiente manera:

Mecanismo de pregunta: las preguntas de los usuarios son introducidas a partir de un conjunto de palabras clave. Muchas veces las necesidades de información no pueden ser formuladas fácilmente a través de la sintaxis booleana.

Cobertura de páginas web: sólo “barren” una porción limitada de la Web visible

Largas listas de resultados con baja relevancia respecto a la pregunta del usuario. La relevancia está dada por algún método del motor de búsqueda (análisis estadístico de frecuencia de palabras en el texto, análisis de la frecuencia con que las páginas están ligadas a otras, etc.), método que carece de información acerca del contexto, del comportamiento y de las preferencias del usuario.

Según Cornellá (1998) podemos definir “dos tipos fundamentales de relevancia. La relevancia formal: cuando los resultados de una búsqueda de información responden a la ecuación de búsqueda que se había planteado. Y la relevancia semántica: cuando los resultados obtenidos responden a las necesidades del usuario.” Cuando hablamos de baja relevancia podemos referirnos, entonces, a información poco relevante formalmente: la sintaxis de búsqueda es pobre, está mal definida o el lugar en el que se




28

busca no es el adecuado, y a información irrelevante semánticamente: no sirve para resolver la necesidad de información.

Por todo ello –y si bien los motores de búsqueda han mejorado en su funcionamiento y cobertura– es que usuarios con necesidades específicas no siempre encuentran la información requerida en la Web ya que los motores de búsqueda son incapaces de responder a “la necesidad que hay detrás de la pregunta”.

Podemos describir este problema como el problema de los lenguajes:

La necesidad de información se plantea en lenguaje natural Esta necesidad expresada se transforma en un lenguaje documental formalizado A su vez, éste debe transformase en una expresión en lenguaje de recuperación.

En la web, y aún con la ayuda de las interfaces gráficas, el problema se encuentra en la transición entre los lenguajes.

4.7 ¿Cómo acceder a la Web profunda?

Dado que la localización de información útil y de calidad en Internet es una tarea cada día más compleja y difícil, que no se basa únicamente en la utilización de buscadores clásicos, necesitamos caminos que nos permitan acceder a todo este volumen de información "profunda" o "invisible".

Uno de estos caminos consiste en la consulta a buscadores y directorios que nos den enlaces a los sitios donde se encuentran la documentación y las bases de datos. Por ejemplo:

CompletePlanet http://aip.completeplanet.com

The WWW virtual library http://vlib.org/

Google Scholar http://scholar.google.com

CiteSeer.IST http://citeseer.ist.psu.edu

4.7.1 Bases de Datos, Opac y Journals

La mayoría de la información en la Web profunda es mantenida por las instituciones académicas y suelen ser de mejor calidad que los resultados obtenidos por los buscadores. Los accesos académicos –academic gateways– que pueden ayudarnos a encontrar dicha información son las bases de datos electrónicas –online databases-, las OPAC –online public access catalog- y las publicaciones electrónicas –electronic journals-. Entendemos por OPAC a las bases de datos electrónicas que contienen información sobre el material existente en las bibliotecas –catálogo-. El acceso puede realizarse desde una estación de trabajo -computer Workstation- ubicada en la biblioteca o a una interface Web –OPAC Web- que permite el acceso público al catálogo vía Internet.

Las bases de datos que dan referencias a bibliografía publicada en un área específica constituyen un buen vehículo para identificar la documentación de calidad (Talbot, 2003). Muchas de estas bases de datos son de acceso restricto, aunque no necesariamente pago.

http://aip.completeplanet.com/

http://vlib.org/

http://scholar.google.com/

http://citeseer.ist.psu.edu/




29

Como ejemplo podemos listar:

SISBI –Sistemas de Bibliotecas y de Información de la UBA– http://www.sisbi.uba.ar/

ERIC Database http://www.eric.ed.gov/

Web of Science http://scientific.thomsonreuters.com/products/wos/

EBSCOhost http://www.ebscohost.com/

Otro de los recursos disponibles para acceder a información científica son las electronic journals, definidas como publicaciones académicas o colecciones de artículos –algunos con referato- sobre temas relacionados que son publicados periódicamente en formato digital y distribuidos a través de Internet. Estas publicaciones suelen tener antecedentes de publicación tradicional en papel. En general, para acceder a los artículos completos disponibles en dichos sitios hay que estar suscripto, aunque sí es posible obtener los resúmenes –abstract- de los mismos.

Elsevier http://www.elsevier.com

IngentaConnect http://www.ingentaconnect.com/

Science Direct http://www.sciencedirect.com/

SciELO http://www.scielo.org.ar/scielo.php

¿Cómo recuperamos información en las bases de datos electrónicas? ¿Por qué los catálogos en línea nos resultan difíciles de usar?

Según Borgman (1988a) los catálogos en línea presentan dificultades en su uso porque su diseño no incorpora conocimiento sobre el comportamiento de búsqueda de los usuarios. La estructura de los registros, contenidos y los campos primarios de búsqueda son diseñados desde el modelo del catálogo tradicional, mientras que las funciones de búsqueda y algunas características de la interface, desde los modelos de recuperación de la información.

Cuando nos referimos al modelo tradicional de estructura de los catálogos –card catalogs- hablamos del modelo del siglo XIX aún presente (Buckland, 1992) y definido por Cutter en 1904 como aquel que está diseñado para:

1.- permitir al usuario encontrar un libro del cual conoce:

el autor

el título

el tema

2. para demostrar lo que una biblioteca tiene:

de un autor dado

sobre un tema en particular

sobre algún género literario

3. asistir en la elección de un trabajo:

en cuanto a su edición (bibliográfico)

en cuanto a su carácter (literario o temático).

http://www.sisbi.uba.ar/

http://www.eric.ed.gov/

http://scientific.thomsonreuters.com/products/wos/

http://www.ebscohost.com/

http://www.elsevier.com/

http://www.ingentaconnect.com/

http://www.sciencedirect.com/

http://www.scielo.org.ar/scielo.php




30

Basados en este modelo se asume que el usuario comienza su proceso de búsqueda sabiendo al menos uno de los tres puntos de acceso (autor, título o tema), sin embargo varios estudios sobre el comportamiento en la búsqueda de información (Borgman y Siegfried, 1992; Chen y Dhar, 1990) –tanto en ámbitos de búsqueda manual o automática– muestran que las personas inician su proceso de búsqueda con información incompleta sobre algunos de los tres puntos de acceso.

En las bases de datos electrónicas, y dependiendo de los campos que conformen sus registros, la indexación suele estar hecha por autor, título, editorial, disciplina, corrientes filosóficas, años, descriptores, etc. Es importante hacer hincapié que la sintaxis booleana de búsqueda -por palabra clave- actuará sobre los campos bibliográficos indexados y que éstos no son índices de ocurrencia de palabras como los generados por los buscadores. Es por ello que si el usuario desconoce los puntos de acceso tradicionales, la forma mas adecuada para comenzar la búsqueda será a partir del uso de los descriptores. Recordemos que los descriptores no son lo mismo que las palabras clave. Son términos organizados en un tesauro que describen el tema con que se relaciona el documento o artículo.

Para la recuperación de información en estos sistemas sugerimos, antes de comenzar la búsqueda, tomar un tiempo para conocer el modelo de indexación por campos y explorar el tesauro, siguiendo los siguientes pasos:

1. Describir el tema con palabras propias

2. Dividir el tema en conceptos principales

3. Utilizar el tesauro para localizar los descriptores apropiados a cada concepto identificado.

La parte más compleja del proceso suele ocurrir “fuera de línea”: analizar la necesidad de información, identificar los conceptos principales y articularlos.

Habiendo analizado las principales herramientas de búsqueda disponibles en la Web, podemos sintetizar el modelo de búsqueda en dichas herramientas de la siguiente forma:

4.8 Los idiomas y la recuperación en la Web

Tal como anticipamos al comienzo de nuestro artículo, Internet pone a nuestra disposición documentos en varios idiomas que provienen, frecuentemente, del inglés, el alemán, el francés, y el español. Estos documentos presentan, por la simple transcripción de ideas de un idioma a otro, dificultades particulares, y es preciso ser prudentes cuando son consultados. Muchos términos técnicos –o específicos de la disciplina en cuestión– son objeto de falsas interpretaciones, o no producen en otros idiomas toda la densidad de búsqueda que tienen en su idioma original. Las palabras,

Buscadores

Metabuscadores

Portales

Directorios

Base de Datos

OPAC

Querying sobre índices de palabras

Browsing

Querying sobre descriptores de un tesauro




31

las expresiones, las frases idiomáticas y las interpretaciones no siempre se corresponden. Es preciso desconfiar también de las lenguas aparentemente parecidas, como el español y el italiano, o el alemán y el sueco, en los que los errores de traducción e interpretación son frecuentes. Por ello la simple traducción literal de un término o una expresión de un idioma a otro es peligrosa como única estrategia en el proceso de búsqueda. Por otra parte creemos que a este último problema debemos añadir dos situaciones no menos importantes:

- las modas idiomáticas y el uso de jergas, y

- la denominación que se hace en otro idioma del concepto buscado, en el que intervienen tanto la conceptualización propia de la disciplina, así como los paradigmas desde la que se aborda.

Veamos algunos ejemplos….

Si hablamos de traducciones o interpretaciones incorrectas, aquí hay algunos:

Inglés Interpretación en Castellano

Incorrecta Correcta

Billion Billón Mil millones

Library Librería Biblioteca

Muchas veces estas interpretaciones incorrectas están “ayudadas” por el uso de servicios de traducción gratuitos. Estos servicios suelen tener serias deficiencias en la traducción, ya que en la misma suele no tenerse en cuenta la jerga de la disciplina, así como el contexto en el cual la información toma significado.

Para ilustrar el uso de los modismos en las disciplinas, un buen ejemplo es la palabra buzzword.

¿Cómo traducimos buzzword? O deberíamos mejor plantear ¿cómo explicamos qué es un buzzword?

Es un término utilizado en área específicas (tecnológicas, administrativas, políticas, etc.) que “suena importante y es usado para impresionar a las personas o describir vagamente un concepto en forma intencional”. Si bien difiere de la jerga, ya que ésta es entendida como el lenguaje especial y familiar que usan entre sí los individuos de ciertas profesiones y oficios, para ambos casos nos encontramos que la traducción a otro idioma de un término de esas características resulta dificultosa.

Y si no, ¿cómo traduciríamos al inglés el término infoxicación, y el término infonomía (Cornellá, 2000)?

Y en castellano ¿qué significa la expresión Social Informatics? ¿Algo así como Socioinformática? ¿Y qué queremos decir con Socioinformática?

Nuestro artículo también es ejemplo de uso de jergas informáticas en inglés de compleja traducción (nos referimos a traducción con sentido, no a traducción literal): querying, browsing, crawl, academic gateways, etc.

Por último, las denominaciones en otros idiomas del concepto buscado. Este aspecto nos obliga no sólo a saber (o por lo menos tener idea) de la traducción de los conceptos, sino a conocer los paradigmas desde los cuales se aborda la disciplina en cuestión.

Un ejemplo que nos puede interesar: en el ámbito de las ciencias de la educación




32

buscaríamos didáctica para recuperar información sobre metodologías de enseñanza. Su traducción literal “didactics” puede ayudarnos a encontrar documentos de origen europeo, pero si deseamos revisar la literatura norteamericana sobre el tema… poco o nada encontraremos. La clave allí es que para los norteamericanos desde el paradigma desde el cual estudian y analizan los métodos de enseñanza, la expresión bajo la cual definen este concepto es “Instructional Design”. Una simple exploración del Tesauro del ERIC da cuenta de la inexistencia del término “didactics” como descriptor, pero sí encontraremos el término “Instructional Design”. Por lo que si utilizamos “didactics” en la búsqueda por descriptores, el resultado será 0 (cero) documentos. Pero si buscamos por título, al explorar la lista de resultados veremos que los documentos devueltos refieren a trabajos europeos. También es interesante visualizar los descriptores bajo los cuales están categorizados dichos documentos, ¿aparece el descriptor “Instructional design”?

El carácter flexible, plural y descentralizado de Internet, es una virtud para la diversidad de contenidos en distintos idiomas, pero a la vez una desventaja para la efectividad de la búsqueda de información, requiriendo de una reflexión profunda antes de comenzar a planificar una estrategia.

Hasta aquí hemos visto que el proceso de búsqueda en la Web requiere tres tipos de “conocimiento”:

- conceptual, del proceso de traducción de una necesidad de información a una expresión investigable,

- semántico, de cómo expresar la pregunta o expresión investigable en lenguaje de recuperación de un sistema dado,

- tecnológico (habilidades) en cómo usar los sistemas de búsqueda basados en computadora.




33

5. Del tesauro a la Web Semántica

Un proyecto que puede servirnos de ejemplo sobre cómo pueden ser los futuros sistemas de información en línea es el motor de búsqueda Scirus (www.scirus.com): una interfase única de información a fuentes diversas. Scirus es un proyecto de la editorial científica Elsevier. Este motor de búsqueda indiza alrededor de 410 millones de términos científicos vinculados con instituciones académicas o científicas y al mismo tiempo envía las preguntas de los usuarios a diferentes bases de datos: Biomed, Medline, ScienceDirect, Scitation, NASA entre otras. De este modo, cuando el usuario realiza una búsqueda en este motor obtiene dos tipos de resultados: 1) páginas o sitios Web cuya fuente son las universidades u otros ámbitos académicos; 2) artículos de revista o registros referenciales procedentes de bases de datos de ciencia y tecnología (o sea, una parte de la Web Invisible).

Otro proyecto que intenta señalar el futuro de la Web es el proyecto promovido por el organismo W3 Consortium: la Web Semántica - Semantic Web-. Para explicar este concepto, nos permitimos introducir el siguiente ejemplo:

- Año 2009: para un docente de una institución educativa es muy simple solicitar a sus alumnos que busquen información en Internet, sin preocuparse demasiado por el tiempo que les toma y si entienden las razones de la búsqueda. El alumno busca información así: utiliza un browser y en Sitios como Google o Altavista encuentra gran cantidad de enlaces. Los revisa y, si tiene suerte, extrae la información solicitada por su profesor, que recibe la información por parte de su alumno algunas horas después.

- Año ¿2020?: un niño pregunta a “su asistente personal” que lleva puesto (algo así como un monóculo como pantalla y un teclado en su chaqueta): ¿quién era el entrenador cuando mi equipo favorito le hizo dos goles al campeón del mundo en el 2006?”. El asistente personal busca Sitios Web dónde encontrar lo solicitado por el niño, quien en poco más de un minuto recibe la respuesta.

En ambos casos, el alumno y el asistente son agentes que tienen las siguientes características:

entienden lo que se le pide buscar,

comprenden el contenido de los Sitios Web que visitan,

validan si lo encontrado corresponde a lo que se le pidió buscar, y

deducen nueva información de la ya obtenida.

Pero, en el año 2009 el alumno es un agente humano, mientras que en el año 2020 el asistente es un agente digital. En el ¿2020? se espera que las computadoras puedan desarrollar tareas de gestión que requieran interpretar información y tomar decisiones adaptándolas al contexto.

Actualmente la Web se asemeja a un grafo formado por nodos –sin distinción de tipos- y enlaces igualmente indiferenciados. Por ejemplo, no se hace distinción entre la página personal de un profesor y el portal de una negocio on-line, como tampoco se distinguen explícitamente los enlaces a las asignaturas que imparte un profesor de los enlaces a sus publicaciones. Por el contrario en la Web semántica cada nodo se corresponde a un tipo y los enlaces representan relaciones explícitamente diferenciadas (Figura Nº 3).

http://www.scirus.com/




34

Fig. Nº 3: La web semántica

La realización de esta visión –de este proyecto de conocimiento distribuido y de provisión de contexto a los datos, tal como lo hacen los seres humanos–, tras la cual están, entre otros, Tim Berners-Lee, necesitará de un nuevo lenguaje de codificación de las páginas, de una gramática lógica para que los autores de páginas Web puedan describir las propiedades semánticas de los documentos en una notación estándar, de la incorporación de las muchas herramientas software y tecnologías sobre las que se está trabajando y de la adopción de unos y otras por parte del mercado.

No sabemos si la Web semántica, con todo su potencial imaginado, será realidad algún día. De momento es un proyecto que, de cumplirse, cambiaría de forma substancial la Web tal como la conocemos hoy.




35

6. ¿Cómo buscar?

Recuperar información es un problema complejo porque requiere describir información que aún no se tiene. Dicha necesidad resulta difícil de trasladar a un lenguaje normalizado y la respuesta será un conjunto de documentos que pueden contener, sólo probablemente, lo deseado y con un evidente nivel de incertidumbre. En la recuperación información, el criterio de valor es el grado en el que la respuesta obtenida satisface las necesidades de información del usuario, es decir, su percepción personal de utilidad (Blair, 1990).

Tramullas (1997) destaca un aspecto importante de las reflexiones de Blair, “ la importancia, en ocasiones ignorada, que tiene el factor de predicción. Predicción por parte del usuario, ya que éste debe intuir, en numerosas ocasiones, los términos que han sido utilizados para representar el contenido de los documentos, independientemente de la presencia de mecanismos de control terminológico. Este criterio de predicción es otro de los elementos que desempeñan un papel fundamental en el complejo proceso de la recuperación de información”

Buscar información en Internet no implica, necesariamente, “encontrar información”. Por ello, por evidente que pueda parecer, la primera pregunta que hay que formularse cuando se desea encontrar información es:

¿Qué necesito encontrar?

Martinet y Martin en su libro L'Intelligence Economique (1995) proponen la existencia de dos tipos de ignorancia: "ignorancia profunda" e "ignorancia conocedora". Analicemos esta idea mediante un ejemplo aportado por Cornellá (1998): Supongamos una situación en la que alguien precisa una determinada información. Puede ocurrir que ese alguien sea muy conocedor del tema en cuestión, y que, en consecuencia, tenga muy claro cuál es la información que le falta; en esta situación, esa persona es consciente de su ignorancia (sabe lo que no sabe), y conoce bien su horizonte de conocimientos; esta es la situación de la ignorancia conocedora. Pero puede también ocurrir que la persona no sea consciente de mucha información que le podría ser de utilidad; en este caso, que podemos denominar ignorancia profunda, no tenga idea de un gran panorama de información, que ni conoce ni ha manifestado necesitar (no sabe lo que no sabe).

Y aquí surge una cuestión interesante: buscar información en Internet, ¿ayuda a reducir la ignorancia conocedora (nos ayuda a encontrar justo la información que necesitamos), o bien ayuda a darnos cuenta de lo muy profunda que es nuestra ignorancia (encontramos más información de las que imaginábamos)?

Cuando el problema esté claramente definido, se analiza la gama de posibles fuentes de información. Las estrategias para buscar información implican tomar decisiones y escoger las fuentes de información más convenientes para el trabajo en cuestión.

En el contexto que hemos estado describiendo a lo largo de este artículo, gestionar información se ha transformado en una tarea cada vez más importante ya sea para nuestra actividad personal como para nuestro trabajo. Normalmente dedicamos poco tiempo, lo hacemos mal, de manera poco estructurada, y nadie nos forma para saber manejar información.

Por ello, nuestra siguiente reflexión será:

¿Cómo nos informamos? ¿Cómo debo buscar? (Figura Nº 4).




36

Fig. Nº 4: El proceso de informarse

El proceso de informarse puede ser descripto, en forma sintética, de la siguiente manera: 1) cuál es la información de interés –la que necesito-, 2) dónde la busco –fuentes-, 3a) cómo la busco –con qué metodologías y herramientas-, 3b) cómo gestiono lo que encuentro por casualidad –tropiezo pasivo, serendipia- y, finalmente, 4) cómo la filtro de acuerdo con lo que a mí me interesa y al final 5) cómo aplico esta información.

6.1 ¿Porqué utilizar una Estrategia de Búsqueda?

Aprender una estrategia de búsqueda de información supone aprender cuándo y por qué utilizar un procedimiento, un concepto o una actitud determinada. Es decir, cuándo y por qué seguir un determinado proceso de búsqueda, cuándo y por qué hacer uso o no de operadores, cuándo y por qué limitar la búsqueda, cuándo y por qué utilizar determinados términos, cuándo y por qué utilizar ciertas opciones de búsqueda que nos ofrecen las diferentes Bases de Datos.

En definitiva, ¿cuál es el trabajo de búsqueda?:

1) recuperar comprensivamente datos de textos de Internet,

2) procesar los datos que se ajusten a la situación planteada, y

3) con el uso de diferentes estrategias cognitivas y metacognitivas, convertir estos datos e información, en conocimientos significativos.

Dicho así, Internet funcionaría como otro recurso más de búsqueda de datos, pero en realidad un hiper-recurso con una gran superabundancia de datos, que requiere del profesional, del docente, y del alumno, nuevas estrategias de búsqueda y recuperación de información, tales como: comprensión, selección, procesamiento de datos, organización de los mismos en torno a mapas y redes conceptuales. Esto no sólo como instrumento para recuperación de información sino como paso para lograr un dominio de saberes socialmente significativos y para desarrollar competencias y habilidades cognitivas e interpretativas propias del área en estudio.

4.-“Saber” filtrar según los objetivos

2.- Saber buscar

1.- Identificar la información necesitada

5.- Usarla, aplicarla

3a.- Identificar las fuentes

3b.-Aprovechar el tropiezo pasivo

– serendipia–




37

Toda búsqueda de información resultará más eficaz cuanto más delimitado esté lo que buscamos. Se trata de reducir el espacio que media entre lo que ya sabemos y aquello que queremos encontrar; cuanto mayor sea esa distancia, menores serán las posibilidades de hallarlo. Por consiguiente, en lo referente a la búsqueda, una correcta planificación nos permitirá separar el éxito del fracaso más que ninguna otra competencia. (Figura Nº 5).

Obviamente, no hay una receta definida y fiable para buscar información en Internet en tiempo y calidad razonables, pero disponemos de elementos que nos permiten construir estrategias y esquemas de comportamiento para afrontar un uso satisfactorio y encontrar lo deseado.

Figura Nº 5: Decisiones relevantes en el proceso de búsqueda de información

¿cuál es el propósito de la búsqueda?

¿para qué necesito la información?

¿cuáles son sus principales condiciones?

¿de cuánto tiempo dispongo para buscar? ¿qué extensión deberá tener la información? ¿qué grado de profundidad? ¿qué tipo de presentación deberé hacer de la información encontrada?

¿qué necesito saber para iniciar la búsqueda?

¿a qué fuentes de información puedo tener acceso? ¿cómo debo actuar para buscar la información en la fuente escogida? ¿qué contenido deberá tener esa información? ¿cuáles son los instrumentos de búsqueda de que dispongo?

¿cómo sabré que busco en la dirección adecuada?

¿qué indicadores me darán cuenta de que la búsqueda está resultando fructífera?

¿cómo sabré que he encontrado lo que buscaba?

¿qué criterios utilizaré para seleccionar la información?

Supervisión:

Valoración:

Planificación:

6.2 Requisitos para una búsqueda

¿Cómo llegamos a la definición de los requisitos?

El problema de trabajar con datos es determinar los requisitos para obtener la información que necesitamos. Pero el mundo de los seres humanos y de los objetos físicos en el cual se ubican los requisitos es bastante informal, y no siempre puede ser tratado adecuadamente sin métodos.

¿Cómo establecer y documentar requisitos para obtener determinados datos?

Consiste en la caracterización, el análisis, la especificación, la verificación y la administración de los requisitos –la elicitación–.




38

La falla en el desarrollo y documentación de buenas especificaciones de requisitos es una de las principales causas de errores en el desarrollo de sistemas de información. Actualmente, la dificultad para definir especificaciones correctas y completas de requisitos es uno de los problemas más grandes en la búsqueda de información. Algunas situaciones que originan esa dificultad son:

- el conocimiento del tema, la forma de expresarlo y el tipo de lenguaje que empleamos.

- la inhabilidad para escribir una especificación correcta de requisitos.

- la falta de conocimientos para la verificación de los requisitos.

- no identificar qué herramienta y/o metodología usar.

Definir correctamente las necesidades de información, disminuye aburridas, inútiles y costosas tareas de búsqueda. Una vez establecido el valor de una buena especificación de requisitos, surgen otras cuestiones:

¿Cómo desarrollarlos?

¿Cómo saber si un conjunto de requisitos es bueno?

¿Qué herramientas y métodos pueden ayudar?

Estas preguntas no tienen una respuesta única y definitiva, puesto que continuamente surgen nuevas herramientas y métodos. Pero lo importante es entender que la caracterización de los requisitos debe realizarse con la mayor claridad posible. Dependiendo de la definición de los requisitos, variarán los métodos, las técnicas y herramientas a utilizar en la búsqueda de información.

Por lo tanto, en la estrategia de búsqueda habrá que tener en cuenta:

1) Ámbito temático que se abarcará: especificidad del tema que se desea desarrollar.

2) Especificidad de los términos: determinar si hay que tomar todos los términos posibles, si bastará un número reducido, si es necesario incluir el conjunto de relaciones con los términos relacionados.

3) Adecuación de los términos: determinar qué términos son los más adecuados para expresar los conceptos del tema de trabajo.

4) Idiomas elegidos: pensar siempre en una búsqueda multilingüe.

A diferencia de la indización, la búsqueda de información –desde el punto de vista de la gestión de la información– es atender una demanda de información formulada por un usuario –investigador, docente, navegante, lector, cliente, usuario, o alumno–.

La situación ahora cambia de signo:

¿Cómo es el “usuario-buscador” que se enfrenta directamente con los documentos, sus temas, sus formas de presentación y de expresar los conceptos?

Es el “usuario-buscador”, que viene con su propio tema, y su forma propia de expresarse. Por consiguiente, lo primero que hay que hacer –en este hipotético diseño de recuperación de información– es entender e interpretar la pregunta del usuario.

Esto nos lleva, directamente, a lo que llamaríamos un estudio de ese usuario-buscador, para el cual habría que tener en cuenta, mínimamente:

1) su conocimiento del tema,

2) su forma de expresarlo,




39

3) tipo de lenguaje que emplea,

4) su dominio del idioma –piénsese en los extranjeros–,

5) su nivel de educación (o profesión).

Como se observa, todas esas características son muy semejantes a las que se deben tener en cuenta cuando se estudia un autor para interpretar lo que quiere decir. También aquí, de las respuestas a estas cuestiones, se puede deducir en qué manera utiliza el lenguaje el usuario-buscador. Se podrá concretar, entonces:

1) el dominio del tema por el que se interesa,

2) el conocimiento de la terminología,

3) el uso concreto de los términos,

4) la especificidad con que se expresa,

5) interpretación de la pregunta,

6) su necesidad real de información.

Podemos afirmar que:

1) es más importante ser estratégico en la búsqueda de información que poseer amplios conocimientos acerca las herramientas de búsqueda,

2) los usuarios estratégicos –independientemente de sus conocimientos acerca el medio y la temática–, llevan a término un proceso de planificación, regulación y evaluación que los ayuda a llegar a los resultados deseados,

3) los usuarios menos estratégicos siguen un proceso marcado por la asociación, reproducción y automatización, que no siempre los lleva a la información deseada. Llegan a buenos resultados cuando disponen de amplios conocimientos sobre el tema o sobre distintos instrumentos de búsqueda. Pero aún así, difícilmente llegan a responder demandas complejas y específicas que impliquen reorganizar el conocimiento o seguir un proceso reflexivo.

En el caso de respuestas no satisfactorias, ahora es posible revisar el proceso. En la mayoría de los casos se trata del uso incorrecto de algún término. En esa situación se sugiere replantear la estrategia de búsqueda modificando los términos que se cree que no son adecuados a esa demanda de información. Aún así, muchas búsquedas terminan con una sensación desagradable, ya sea por la enorme cantidad de documentos relacionados que no nos permiten una concentración en los temas específicos, como por la sensación de “sobrecarga” que se siente al realizar un trabajo con excesiva información.

6.2.1 La importancia de ser estratégico

Los usuarios menos estratégicos actúan por ensayo y error, sin plan previo, sin conocer qué recursos de búsqueda existen y cuáles pueden resultar más adecuados en cada caso, y sin clarificar tampoco qué palabras clave son las más relevantes para el tema o qué criterios pueden resultar más fiables para seleccionar los mejores sitios o direcciones de entre un inmenso listado.

Por eso utilizan el primer sistema de búsqueda que han encontrado, sin tener en cuenta sus características y las de su propia demanda –idioma, ámbito geográfico, ámbito temático, etcétera–. Emplean distintas palabras clave sin pararse a pensar en otras opciones que no se encuentran especificadas tan claramente en la demanda. La




40

única operación que hacen es un simple reconocimiento verificando que la información que van encontrando esté relacionada con el tema en cuestión.

Cuando no encuentran lo que desean, dan por terminada la búsqueda. Si revisan lo ocurrido, sólo se limita a verificar posibles errores de escritura y raramente se cuestionan el proceso seguido o la organización de la búsqueda. También observamos que si estos usuarios tienen que actuar fuera de su dominio de conocimientos les resulta difícil regular el proceso de búsqueda.

En cambio los usuarios “estratégicos” siguen un proceso que implica ir y venir entre lo que quieren buscar y la manera cómo lo hacen. Al ajustarse a los objetivos de la búsqueda, toman decisiones más oportunas en función de la información hallada y de las condiciones de la situación y la tarea. Por otro lado, las revisiones son constantes a lo largo de todo el proceso. Todo parece indicar que una búsqueda estratégica –consciente, intencional y autorregulada– de la información brinda resultados más fructíferos.

Toda búsqueda de información resultará más eficaz cuanto más delimitado esté lo que buscamos. Se trata de reducir el espacio que media entre lo que ya sabemos y aquello que queremos encontrar; cuanto mayor sea esa distancia, menores serán las posibilidades de hallarlo. Por consiguiente, en lo referente a la búsqueda, una correcta planificación nos permitirá separar el éxito del fracaso más que ningún otro atributo.

6.3 Modelos de exploración y búsqueda

Tal como lo hemos descrito hasta el momento, la Web dispone de diversas herramientas para la recuperación de datos en línea. A pesar de esta supuesta flexibilidad en los modelos de recuperación –dada básicamente por la hipertextualidad y la variedad de lenguajes simbólicos-, algunas investigaciones han sugerido que las diferencias en las características individuales de los usuarios pueden ser uno de los factores más influyentes que afectan el comportamiento de la búsqueda.

Y así lo expresa Choo (1999): “para la misma necesidad de información, cada uno de nosotros buscaría de un modo un tanto diferente, según nuestro conocimiento sobre las fuentes, experiencias pasadas, preferencias personales, etc.”

Veamos algunos modelos…

Cove y Walsh (1988) distinguen tres tipos de estrategias de exploración: exploración con búsqueda, exploración de tipo general, y exploración con serendipia (actividad en la que de casualidad se encuentra la información). Esta distinción introduce un espectro de estrategias de búsqueda abarcando desde aquellas con una alta direccionalidad para la obtención de información específica hasta la exploración puramente aleatoria.

Por su parte, Marchionini (1995) propone tres patrones de búsqueda diferenciados en función de la necesidad de información –objeto de la búsqueda- y las tácticas utilizadas:

- Exploración dirigida -Directed browsing-, la exploración es sistematizada, focalizada a un destino específico (por ejemplo buscar en una base de datos un tema específico verificando los atributos de la información)

- Exploración semidirigida -Semidirected browsing-, la información a buscar es algo indefinida y el proceso de exploración menos sistemático (por ejemplo




41

buscar a partir de términos generales y examinar los resultados)

- Exploración sin dirección -Undirected browsing-, no hay un objetivo específico (por ejemplo navego en una web explorando su contenido).

Ampliando la propuesta –previa a la Web– de Aguilar (1967), Choo (1999) describe cuatro modos de exploración en función de la necesidad de información, la acción –técnica– y el uso que se hace de la información recuperada (Tabla N° 3).

Tabla Nº 3: Modos de exploración (Choo, 1999)

Modos de exploración Necesidad de información

Acción –técnica–

Uso de información

Visión sin dirección - undirected viewing-

No hay necesidad específica

"Sweeping" –barrido- Exploración amplia de diversidad

de fuentes, tomando aquellas fácilmente accesibles.

Serendipia

“Browsing" -exploración- Indagación

Visión condicionada -conditioned viewing-

Temas generales de interés

"Discriminating" –discriminación- Ojear en fuentes

preseleccionadas sobre tópicos de interés

"Learning" -aprendizaje-incrementar el

conocimiento sobre tópicos de interés

Búsqueda informal

-informal search- Entender y profundizar

sobre temas específicos

"Satisfying" –Satisfacción-

La búsqueda se focaliza en áreas, pero una búsqueda sencilla es

satisfactoria

"Selecting" -selección-

incrementar el conocimiento en un área

(con algunos límites)

Búsqueda formal -formal search-

"Optimizing" –optimización-

Reunión sistemática de la información sobre una entidad,

después de utilizar un cierto método o procedimiento

"Retrieving"

-recuperación- uso formal de la

información para la toma de decisiones

Ellis (1989) plantea un modelo conductual de búsqueda de información con seis categorías (Tabla N° 4):

Tabla Nº 4: Modelo de búsqueda (Ellis, 1989. Fuente, Choo, 1999)

“Starting” iniciación

Identificar fuentes de interés que sirven como punto de partida. Su exploración, probablemente sugieran referencias adicionales.

“Chaining” vinculación

Proseguir con los indicios dados por la fuente inicial.

“Browsing” examen superficial

Búsqueda semidirigida en áreas de posible interés.

“Differentiating” diferenciación

Filtrar y seleccionar entre las fuentes exploradas a partir del reconocimiento de la calidad de la información.

“Monitoring” supervisión

Inspeccionar en forma sistemática las fuentes de interés.

“Extracting” extracción

Trabajar metódicamente a través de las fuentes particulares a fin de identificar material de interés.




42

En una propuesta interesante, Choo (1999) combina el modo de exploración de Aguilar y el modelo conductual de búsqueda de Ellis, en un nuevo modelo de que refleja el comportamiento de búsqueda de información en la Web (Tabla N° 5):

Tabla Nº 5: Modelo de búsqueda de información (Choo, 1999)

Starting Chaining Browsing Differentiating Monitoring Extracting

Visión sin dirección

Identificar y/o

seleccionar páginas de

inicio

Seguir los vínculos de las páginas de inicio a otras con

contenidos relacionados (aunque no verifique la predicción)

Visión condicionada

Explorar en listas, mapas

de contenidos,

índices, directorios,

etc.

Filtrar y seleccionar sitios útiles a través

de “favoritos”, impresión, copiado

y pegado, etc.

Ir directamente a Sitios conocidos

Recibir la actualización

de sitios utilizando agentes,

suscripciones, listas, etc. Re-visitar los sitios

“favoritos”.

Búsqueda informal

Utilizar

herramientas de búsqueda parar extraer

información de útil.

Búsqueda formal

El conocimiento de los modos de exploración y de las categorías de conducta en la búsqueda de información son aspectos esenciales que deben analizarse e investigarse, a fin de tenerlos en cuenta en el diseño de los sistemas de recuperación de la Web para que éstos mejoren su funcionamiento y aumenten su utilidad –la percibida por el usuario- al apoyarse en estas características conductuales. Sin embargo, el modelado con control preciso y consciente del proceso congnitivo enmarcado en la recuperación de información de la red hipermedial que es la Web, no es una tarea sencilla.

6.3.1 Serendipia

El término serendipia procede de la palabra serendipity y hace referencia al modo en que se produce un descubrimiento que se realiza de repente gracias a un accidente o una casualidad. No existe traducción al español de esta palabra. Royston Roberts en su libro “Serendipity. Accidental Discoveries in Science” (1989) introduce la definición del término como “hallazgo inesperado de cosas o ideas interesantes en el proceso de búsqueda de otras”. Podemos pensar a la palabra “serendipia” como un neologismo del término en inglés.

Para Olivier Ertzcheid y Gabriel Gallezot, existen tres estados iniciales que favorecen la serendipia y que se asocian a tres procesos relacionados con la




43

Recuperación de Información:

- Sé lo que busco: el usuario sabe ya (en parte) lo que busca. Por tanto realizará una búsqueda clásica según los modelos clásicos de los sistemas de documentales (booleanos, lenguajes documentales, etc). El usuario se encuentra en una lógica de consulta y búsqueda que le proporciona resultados (matching) sabiendo, aproximadamente, lo que puede aportar el sistema de información. Este usuario utiliza un razonamiento hipotético-deductivo. Aquí la serendipia es prácticamente nula o no conlleva ninguna acción voluntaria consciente.

- No sé lo que busco: el usuario se embarca en un proceso exploratorio (browsing). El usuario va, a partir de lo que sabe, a razonar por inferencia y abducción en función de su duda o de su perfil. La serendipia, en este caso, es de tipo estructural.

- Sé que no sé lo que busco: es el que más se puede beneficiar del fenómeno de la serendipia. El usuario suele adoptar un comportamiento muy simple, muy asociativo y muy intuitivo, sea cual sea la complejidad del sistema que vaya a consultar. Sobre los resultados de la búsqueda, el usuario irá descubriendo, de manera asociativa, nuevas palabras clave, nuevos nombres de personas, nuevas pistas de investigación, etc, que van a ayudar a constituir una respuesta/solución a la pregunta/problema. Aquí la serendipia es asociativa, y es el tipo de proceso sistematizado que usan los buscadores de representación gráfica (por ejemplo Kartoo).

En definitiva, la serendipia durante un proceso de búsqueda de información puede ser pasajera, dependerá del momento en que los modelos mentales se impongan, o convertirse en un modo privilegiado de acceso a la información. La serendipia aplicada a la Recuperación de la Información pone de manifiesto que no es necesariamente más fácil encontrar la información en un sistema ordenado, estructurado y formateado que en un sistema de información caracterizado por una entropía fuerte y que no dispone de ningún nivel de control único.

Por tanto, deberemos tener en cuenta, a la hora de hablar de Recuperación de Información, los fenómenos de serendipia en complemento a las preguntas (querying) y a la exploración (browsing).

6.4 Guía para la búsqueda de información

Los siguientes párrafos proponen un proceso de recuperación; pero debe recordarse que la recuperación de información no es un proceso y una actividad exacta: pueden haber varios procesos y varias soluciones distintas para el mismo problema (adaptado de Tramullas, 2001).

1. Planteamiento del tema y nivel de conocimientos: debe establecer claramente cuál es el objetivo de su interés. Hay objetivos que pueden parecer adecuados, pero que en realidad necesiten un refinamiento; plantee todas las situaciones posibles que pueden darse, y piense en varias tácticas para acercarse al problema. Si prepara estas tácticas alternativas, las respuestas que obtenga durante una consulta, sobre temas relacionados con lo que está buscando, pueden servirle como punto de partida para buscar por exploración (procesos basados en la navegación.). Debe establecer cual es su propio nivel de




44

conocimientos sobre el tema. Si su nivel de conocimientos es adecuado, podrá abordar el problema de la fiabilidad con mayores garantías. En cualquier situación, esta fase debe dar como resultado una formulación clara e inequívoca del objetivo de su búsqueda.

2. Identificación de los tipos de información: la web contiene diferentes tipos de información, tanto por el tipo de fichero que los contiene, como por el objetivo y finalidad de las páginas web y de los creadores de las mismas. Debe establecer la posible utilidad de cada una de estos tipos de documentos, y no descartar ninguno a priori, ya que por exploración puede encontrar información complementaria que le sea de utilidad.

3. Selección de los recursos de información y de las herramientas de consulta: La selección de los recursos de información, es decir, índices, directorios y motores de búsqueda a utilizar, es de suma importancia. Continuamente están apareciendo directorios especializados en los temas más diversos; en numerosas ocasiones, ofrecen coberturas muy parciales, aunque los índices que ofrecen tienen un alto nivel de fiabilidad. Si no conoce estos directorios, debe recurrir a los motores. Si desea comparar los resultados ofrecidos por varios de éstos, lo más recomendable es utilizar un metabuscador. La segunda parte de esta fase definirá que herramienta utilizará para consultar los recursos de información.

4. Redacción de la expresión lógica (de búsqueda). Ejecución. Recepción de respuestas. Debe introducir en la interface o herramienta que haya seleccionado para desarrollar la búsqueda, la expresión que reúne los términos elegidos, y los operadores que establecen las relaciones existentes entre aquellos. Los motores ofrecen siempre páginas de ayuda, en las que explican las posibilidades del lenguaje de interrogación que usan, y suelen incluir ejemplos. También ofrecen interfaces simples y avanzadas para formular las expresiones. Es preferible utilizar las interfaces avanzadas, ya que ofrecen más potencial y parámetros que ayudan a perfeccionar las expresiones y a obtener resultados ajustados.

5. Preselección de respuestas pertinentes. Exploración de los documentos originales: lea los datos que ofrece el listado para desechar aquellos que no sean adecuados. Presione en el enlace que le lleva al documento original. Para aligerar el trabajo, y evitar la sobrecarga cognitiva, use el menú emergente (botón derecho: Abrir en ventana nueva). De esta forma podrá explorar el documento, y otros relacionados con el mismo, sin perder la ventana con el listado de respuestas, lo que facilitará nuevas exploraciones. Si el documento, o documentos a los que ha accedido le interesan, márquelos. En caso contrario, cierre la ventana y vuelva al listado respuestas.

6. Replanteamiento de estrategias. Si tras analizar las quince o veinte primeras respuestas no ha obtenido algún resultado satisfactorio, es necesario cambiar la táctica. El cambio puede referirse a las expresiones utilizadas, o al motor seleccionado. Si el número de respuestas obtenido es muy elevado, y los primeros resultados son poco pertinentes o muy generales, formule una nueva expresión de búsqueda, con más condiciones y limitaciones. En el caso contrario, es decir con nulo o escaso número de resultados, puede suceder que: a) si la expresión no es restrictiva, entonces no hay documentos, o los documentos no contienen esos términos; b) que la expresión sea demasiado restrictiva, con demasiadas condiciones. Para estos casos, debe probar con una expresión con




45

menos condiciones, y usar términos sinónimos o similares a los usados en la primera formulación.

7. En el proceso de recuperación de información en Internet, el usuario siempre debe pensar que no es suficiente con seguir los resultados obtenidos de un motor de búsqueda: hay que explorarlos, analizarlos, valorarlos, y seleccionarlos como adecuados, o desecharlos como no pertinentes. Las herramientas de recuperación de información en la Web son un medio más, una fase intermedia, no un fin.

Los resultados proporcionados por un motor de búsqueda, no son sólo el resultado de un cruce combinatorio entre páginas que responden a una determinada demanda y las que corresponden menos o nada. La neutralidad está claramente ausente, en realidad se nos está proporcionando una visión sobre el mundo que no es nada inocente. Con una lista de resultados nos llega, al mismo tiempo, toda una jerarquía de principios de clasificación del saber, y otros más implícitos todavía, de organización del conocimiento.

Aún siendo reiterativos, es preciso insistir que “no hay una sola herramienta ni una única forma que asegure encontrar resultados óptimos en todos los casos”.




46

7. Competencias para el manejo de la información

Las competencias necesarias para la comprensión y procesamiento de información, constituidas en gran parte por la competencia lingüística, posibilitan una serie de procesos de distinto nivel de complejidad (A. Rivière, 1992):

a) procesos básicos de reconocimiento y elaboración semántico-sintáctica de los elementos del mensaje (palabras, imagen, sonido, etc.).

b) procesos superiores de elaboración semántica que van más allá de la información representada en la búsqueda.

Es importante distinguir entre (Baxley, 2003):

a) el modelo conceptual, la descripción de cómo una persona puede buscar información, y

b) el modelo mental, que caracteriza cómo una persona espera buscar información.

El modelo conceptual nos permite formar expectativas exactas y útiles sobre qué tipo de funcionalidad o de contenido está disponible. Complementariamente, los modelos mentales describen cómo esperamos que ese sistema o servicio esté organizado. Siempre un modelo mental es individual –varía de una persona a otra–, y frente a la misma actividad de búsqueda pueden plasmarse varios modelos mentales posibles. Para Mc Daniel (2003), un modelo mental posee las siguientes características:

1) incluye lo que la persona piensa que es verdad, y no necesariamente lo que es verdad,

2) es similar en estructura al objeto o concepto que representa.

3) permite predecir a la persona los resultados de su acción, y

4) es lo más simple que el objeto o concepto representa, incluyendo la información suficiente para permitir predicciones exactas.

Por ello, desde la óptica de poseer competencias para el acceso y uso de la información –entendida éstas como la función de "reconocer cuándo se necesita información y poseer la capacidad de localizar, evaluar y utilizar eficazmente la información requerida" (American Library Association, 1989)– tiene sentido preguntarnos cómo buscaremos la información. Dentro de esta configuración, las competencias para el manejo de la información, son:

1) explorar,

2) percibir nexos y relaciones,

3) captar y desentrañar estructuras conceptuales,

4) determinar la naturaleza y nivel de la información que se necesita,

5) almacenar el significado,

6) condensar la información,

7) adoptar lógicas diferentes al sí-no,

8) construir estrategias de búsqueda eficaces,

9) tratar la complejidad,

10) moverse intuitivamente,

11) tener capacidad de síntesis,




47

12) aplicar criterios para evaluar la información y sus fuentes,

13) comparar los nuevos conocimientos con los anteriores para llegar a determinar el valor añadido, las contradicciones u otras características de la información,

14) albergar incertidumbres,

15) tener capacidad de transferencia,

16) tomar decisiones a partir de información incompleta, y

17) comprender la problemática ética, legal y social que rodea a la gestión de la información.

A su vez, toda esta información está determinada por un esquema semántico –el estudio de los signos en relación con los objetos designados– que nos lleva a la idea transmitida, al mensaje, o al dato.

Las competencias para el manejo de la información constituyen la base para el aprendizaje continuo, son comunes a todas las disciplinas, a todos los entornos de aprendizaje y a todos los niveles de educación.

Un informe del National Research Council (1999) enumera varios rasgos distintivos útiles a la hora de comprender las relaciones entre las competencias para el acceso y uso de la información, las competencias en el uso de computadoras y las destrezas tecnológicas más amplias. El informe señala que la "competencia en computadoras" tiene que ver con el aprendizaje rutinario de aplicaciones informáticas específicas, mientras que el "dominio de las tecnologías" se centra en la comprensión de los conceptos básicos de la tecnología y en la aplicación de técnicas de solución de problemas y pensamiento crítico para el uso de la misma. Por el contrario, las competencias para el acceso y uso de la información constituyen un marco intelectual para la comprensión, hallazgo, evaluación y utilización de la información – actividades todas ellas que pueden ser llevadas a cabo en parte gracias al dominio de tecnologías de la información pero sobre todo por medio del discernimiento crítico y el raciocinio. Las competencias para el manejo de la información se valen de la tecnología pero, en última instancia, son independientes de ella.

Por otro lado, el valor informativo de un dato, una información, o un acontecimiento puede ser percibido mediante tres parámetros entre los que no existe ninguna relación, hasta ahora, pero que integran las componentes de la estrategia de una persona para conocer, controlar y dominar su entorno (Escarpit, 1982):

1) su probabilidad de ocurrencia –valor de la incidencia de que ese acontecimiento ocurra–;

2) su grado de pertinencia –valor en esa situación–;

3) su efecto –otros valores en juego–.

Si bien todo parece reducirse a determinar del documento sólo tres atributos:

1) origen: quién es su autor y cuál es su competencia sobre el tema,

2) destino: a quién va dirigido el tema y qué se pretende con su publicación,

3) aspectos: el contenido que cubre: el significado;

cabe recordar que el manejo de las tecnologías de información no se limita sólo al acceso de los datos, sino que también incluye al “manejo” de la información, ya sea:




48

1) la selección de los temas,

2) la forma de agruparlos,

3) el modo de presentarlos, y

4) la forma de comentarlos.

Otro de los puntos a tener en cuenta es cómo “envejece” la información. Si bien es cierto que la información es esencialmente dinámica –cambia constantemente–, debemos tener en cuenta no sólo el “envejecimiento”” como consecuencia de la velocidad de cambio de las habilidades de interpretación y análisis y las transformaciones del espacio físico y social, sino también el “envejecimiento forzado” por los modos de presentarla, agruparla y comentarla que el manejo institucional de esas tecnologías.

7.1 Acotando el problema

Ya hace varios años, Peter Drucker planteaba que antes de iniciar cualquier tarea de búsqueda, teníamos que aprender a plantear las siguientes preguntas:

¿Qué información necesito, en qué forma y cuándo?

¿A quién debo qué información y cuándo y dónde?

Cabe agregar:

¿Cómo buscar información, razonablemente?

¿Al no consultar todas las fuentes de información disponibles, es completa mi búsqueda de información?

Esta característica se hace palpable con el empleo de las herramientas tradicionales –como las consultas a bibliotecas–, las cuales sólo dan como resultado unos pocos libros o referencias al tema.

¿La incorporación de nuevas herramientas de búsqueda, mejorará nuestra capacidad para la obtención eficaz de datos relevantes?

El problema no es solamente correr los riesgos de no ser efectivo transfiriendo información sino, antes que eso, dilucidar cuál es la información útil y relevante para nosotros, nuestros alumnos o colegas y para los procesos de enseñanza y transferencia de información relevante. Y ésta es una tarea que requiere cuidado.

Para Cornellá (2000), conseguir una mejora en el proceso de informarse pasa por recibir la información adecuada de forma que se pueda usar, y esto se conseguiría con saber, cada uno de nosotros, cuáles son:

- los cinco temas fundamentales en los que estamos trabajando,

- los cinco temas secundarios,

- cuál es la lista de información crítica para los cinco temas fundamentales, y

- la lista de información secundaria para los cinco temas secundarios.

Frente a esta tarea de dilucidar información es interesante el modelo TRAF propuesto por Quinn (1990) que sugiere que ante cualquier entrada –input- de información, sólo es posible una de las siguientes cuatro acciones (Figura Nº 6):




49

Tirar, si no está en una de mis 10 áreas básicas

Remitir (transferir), si puede interesar a alguien del entorno

Actuar (utilizar), si está en la lista de las áreas críticas

Fichar (guardar) si está en la lista de las 5 áreas secundarias

Figura Nº 6: Modelo TRAF (Quinn, 1990)

Coincidimos en que:

1) la cantidad de información nos supera;

2) los medios de comunicación son imprecisos;

3) esos medios tienen un enorme poder en nuestra sociedad.

Pero la magnitud y velocidad de creación y circulación de datos e información han generado dos nuevos problemas:

1) cómo obtener rápidamente la información que necesitamos, y

2) cómo obtener conocimiento relevante –lo más importante–.

No hay una fórmula para elegir, pero si hay varias posibilidades de mejorar la situación:

1) eliminar rápida e inteligentemente la información poco confiable o repetitiva;

2) prevenirnos sobre:

a) los excesos de información,

b) las fuentes imprecisas y

c) la tendencia de información predominante de la información,

3) buscar los puntos de imprecisión, para poner a prueba la consistencia de la realidad que nos plantea esa información;

4) resistirnos a aceptar la tendencia predominante de la información, sin una crítica lo más objetiva posible.

Información

inútil

interesante

útil

Rechazar:

•Tirar

•Remitir

Aceptar:

•Usar

•Guardar

filtros




50

8. Calidad de la información

¿Qué entendemos por información de calidad? ¿Cómo se reconocen las configuraciones que aseguran la “calidad” de la información?

Sin duda el concepto de calidad de la información depende del uso que se haga de la información en la práctica. Es posible que lo que se entiende como buena información en un caso concreto sea insuficiente para otros casos.

Según Tramullas (2000) podemos nombrar cinco criterios tradicionales de calidad:

1. Autoridad: quién es el autor/es y cuál es su competencia sobre el tema

2. Fiabilidad: confianza en que la información es cierta, fiable y libre de errores

3. Objetividad: nivel de expresión de la información sin distorsiones personales

4. Actualidad: nivel de actualidad de la información

5. Cobertura y audiencia deseada: nivel de temas y profundidad de tratamiento; quienes son los destinatarios.

Por otra parte, un modelo empírico de categorías y dimensiones que nos permiten “medir” la calidad de la información –Information Quality– ha sido desarrollado por Huang (1996) y se encuentra reflejado en la Tabla 6. Este modelo agrupa a las dimensiones en cuatro categorías: calidad intrínseca, calidad contextual, calidad en la representación, calidad en el acceso.

Tabla Nº 6: Categorías y dimensiones de la Calidad de la información –IQ– (Huang, 1996)

Categorías de la IQ Dimensiones de la IQ

Calidad de la información intrínseca (atribuible a sí misma)

Precisión (exactitud), objetividad, credibilidad, reputación

Calidad de la información contextual (que se plantee en el contexto de la tarea en cuestión)

Relevancia, valor añadido, ¿es oportuna?, ¿está completa?, cantidad

Calidad de la información de representación Facilidad de interpretación, facilidad de comprensión, representación concisa, representación consistente.

Calidad de la información de acceso Acceso real, seguridad

Con la categoría Calidad de la Información Intrínseca se aprecia que la información presenta un nivel de calidad atribuible a sí misma. Por ello esta categoría se compone de dimensiones como exactitud o reputación. Si bien es cierto que los términos listados presentan un carácter intuitivo respecto de su alcance, a modo de ejemplo podemos citar a Krieber (1979) que define “exactitud” como “la veracidad de la información de salida”, mientras que Ballou y Pazar (1985) la definen como lo que se consigue cuando “el valor registrado es conforme con el valor real”.

Con la categoría Calidad de la Información Contextual se destaca la obligación

de que la calidad de la información se plantee en el contexto de la tarea en cuestión, es decir se busca que la información sea aplicable, completa, oportuna y apropiada en término de volumen, para aportar valor añadido.

Con las categorías Calidad de la Información en la Representación y en el Acceso se enfatiza en la importancia de los sistemas informáticos para el almacenamiento y acceso a la información. Es decir que los sistemas informáticos deben presentar información interpretable, fácil de entender, fácil de manipular, representada




51

concisa y consistentemente y además el sistema informático debe ser accesible y seguro.

En síntesis, básicamente existen dos maneras de evaluar la calidad de la información: 1) objetivamente determinando la validez, confiabilidad, y autenticidad y 2) subjetivamente determinando si la información recuperada es pertinente a la necesidad.

9. Algunas reflexiones…

Los aportes realizados hasta el momento, nos permiten ir apuntando una serie de hechos:

- la carencia de información ha dejado de ser un problema en el terreno educativo debido a la amplitud de fuentes (Figura Nº 7) y posibilidades que se le ofrecen tanto al profesor como al estudiante,

- la potenciación de la interactividad no sólo entre las personas sino también con una diversidad de códigos y sistemas simbólicos para el procesamiento de la información,

- la pluralidad de contenidos de carácter abierto y dinámico,

- la dificultad que se presenta en la búsqueda, recuperación, acceso y manejo de las fuentes de información disponibles en la Web,

- la insatisfacción de los usuarios con el funcionamiento de la generación actual de los motores de búsqueda (mala calidad de los resultados, escasa relevancia en relación a la necesidad, etc.), y

- la posibilidad para que los sujetos se conviertan en procesadores activos de información y no en meros receptores de la misma.

Figura Nº 7: Posibles fuentes de información




52

Todo indica que en Internet los flujos de conocimiento están renovándose continuamente, lo que ayer era actualidad hoy es pasado. Se accede a la información en forma hipertextuada y recorriendo caminos sin conocer la meta, aprendiendo en el camino a abrir “ventanas”, a conocer “portales” y motores de búsqueda y navegadores. Nos encontramos ante una manera diferente de in-formar, un espacio dónde la información se reorganiza constantemente. Y este orden ha sido impuesto por la mediatización tecnológica, que nos obliga a recorrer otros espacios y otros tiempos.

Bajo esta perspectiva, buscar información resulta un reto más complejo para acceder a la información que necesitamos. La persona que protagonice una búsqueda por Internet no sólo debe identificar las condiciones de búsqueda y planificar sus acciones, sino también conocer, gestionar y regular su propio proceso de navegación, habilidad que puede favorecer la búsqueda. Así como desarrollar las competencias necesarias para el manejo de la información.

Acceder a la información significa relacionar:

1) nuestras estrategias de búsqueda –nuestro estilo cognitivo–, con

2) el diseño de los sitios de búsqueda y su interacción telemática –la capacidad de comunicación que genera ese espacio interactivo–.

Una estrategia de búsqueda de información se define con acciones u operaciones lógicas que resuelven cosas como:

- Sobre qué buscar información: definir necesidades.

- Cuál es el ámbito de relaciones (o de información) del tema principal: definir el tema general, los subtemas, los temas relacionados y los equivalentes.

- Dónde buscar: responder a: ¿quién tiene o dónde está la información?

- Con qué herramientas buscar: determinar cómo llegar donde se encuentra la información.

- Cómo hacerlo: definir con qué criterios, acotaciones, indicadores, palabras claves.

- En qué puntos o ámbitos temáticos: definir desde qué otros temas relacionados y subtemas se puede llegar a la información.

Esto implica tener en cuenta que hay un enriquecimiento de los modos tradicionales de rastrear y buscar información, como consecuencia de:

1) el impacto de las ya no tan nuevas tecnologías sobre el procesamiento y la transmisión de información,

2) las nuevas modalidades de organización y acceso a la información,

3) la permanente reubicación de la información disponible y la detección de su existencia y el acceso a la misma, y

4) la aparente dilución de la figura del mediador tradicional de la información –el clásico bibliotecario–,

que contribuye a repensar competencias, habilidades y estrategias para rastrear y recuperar información, pero que también requiere de los esquemas que hemos desarrollado, ya que estos procedimientos informatizados también los utilizan, con mayor eficacia y velocidad.

¿La incorporación de nuevas herramientas de recuperación, mejorará nuestra capacidad para la obtención eficaz de datos relevantes?




53

¿Es posible evaluar la eficacia de todos los sistemas de recuperación sobre una misma base?

Si pudiésemos conocer previamente a todos los documentos tendríamos una respuesta óptima (que se conoce de antemano), al ser procesados por cada uno de los sistemas de recuperación. No tenemos esperanzas de que pueda aplicarse esta posibilidad no sólo porque no podemos conocer previamente a todos los documentos, sino porque cada sistema de recuperación es diseñado para un conjunto específico de documentos y estudios, y todavía no es posible idear ningún sistema maestro de recuperación de la información, capaz de manejar documentos y estudios en cualquier campo, y tal sistema no existe...

Por último, recordar que a la limitación material para acceder a la mayoría de los libros existentes en el mundo –condición natural del lector hasta hoy–, le reemplaza la ilusión de tener a su alcance, desde su escritorio o su biblioteca y gracias a las posibilidades de Internet, a todos los libros del mundo. Como contrapartida, sabemos que las personas enfrentadas a procesar cantidades excesivas de información, distinguirla, seleccionarla y comprenderla, necesitan más tiempo, más esfuerzo de atención, más concentración y más capacidad.

En palabras del escritor Antonio Skármeta: “....Hay gente que deambula sin ton ni son porque no sabe ya no el lugar donde está lo que busca sino qué es lo que busca...”

10. Bibliografía

AIMC (2003). Audiencia de Internet en el EGM. Recuperado en Marzo de 2006 de http://www.aimc.es/

Bergman, M. (2001). “The Deep Web: Surfacing Hidden Value”. The Journal of Electronic Publishing, August, 2001 Volume 7, Issue 1. Recuperado en Agosto de 2005 de http://www.press.umich.edu/jep/07-01/bergman.html

Blair, D.C. (1990). Language and representation in information retrieval. Amsterdam: Elsevier Science Publishers.

Bradford, S. C. (1950). Documentation. Washington D.C.: Public Affairs Press.

Burbules, N. y Callister, T. (2001). Educación. Riesgos y promesas de las nuevas tecnologías de la información. Barcelona: Granica.

Callon, M.; Courtial, J. P. y Penan, H. (1995). Cienciometría: la medición de la actividad científica: de la bibliometría a la vigilancia tecnológica. Gijón: Trea.

Cornella, A. (2000). Infonomia.com! La empresa es información. Bilbao: Deusto.

Currás, E. (1991). Tesauros, lenguajes terminológicos. Madrid: Paraninfo.

Chang, G., Healey, M.J., McHugh, J.A.M. y Wang, J.T.L. (2001). Mining the World Wide Web: an information search approach. Norwell, MA: Kluwer Academic Publishers.

Choo, Ch. (1999). La organización inteligente. México: D.F.: Oxford.

Cove, J.F. y Walsh, B.C. (1988). On-Line Text Retrieval via Browsing. Information Processing and Management, 24(1):31-37.

Davenport, T. (1997). Ecología de la información. New York: Oxford University Press.

Gómez Reyes M. Arquitectura de información. La Habana: INFO 2002, IDICT, 2002




54

Grau, J. (2011). Módulo 3: Tecnologías de la Información y de la Comunicación: las TIC’s. Buenos Aires: Fundec.

Gulli, A. y Signorini, A. (2005). The Indexable Web is More than 11.5 billion pages. WWW 2005, May 10–14, 2005, Chiba, Japan.

Huang, T. (1999). Calidad de la información y gestión del conocimiento. Madrid: AENOR.

Internet World Stats. (2011). World Internet Users and Population Stats. Recuperado en Agosto de 2011 de http://www.internetworldstats.com/stats.htm

Jones W. (2008). Keeping found things found. The study and practice of personal information management. Massachusetts: Morgan Kaufmann.

Lancaster F. W. (1995). El control del vocabulario en la recuperación de información. Valencia: Universitat de Valéncia.

Lancaster, F. W. (1996). Indización y resúmenes. Teoría y práctica. Buenos Aires: EB Publicaciones.

Lewis, M. Paul (ed.). (2009). Ethnologue: Languages of the World, Sixteenth edition. Dallas, Tex.: SIL International. Recuperado en Agosto de 2009 de: http://www.ethnologue.com/.

Lyman, P. y Varian, H. (2003). How Much Information. Recuperado en Agosto de 2009 de http://www.sims.berkeley.edu/how-much-info-2003.

Martínez Tamayo, A. M. (1999). Tesauro. Cátedra de Organización del Conocimiento I, Departamento de Bibliotecología, Facultad de Humanidades y Ciencias de la Educación, Universidad Nacional de La Plata.

Murray, B. (2000). Sizing the Internet. Cyveillance, Inc.

Netcraft (20101). Web Server Survey. Recuperado en agosto de 2011 de http://news.netcraft.com/archives/category/web-server-survey/

Sherman, C. y Price, G. (2001). The Invisible Web. CyberAge Books

Spinak, E. (1996). Diccionario enciclopédico de bibliometría, cienciometría e informetría. Caracas: UNESCO.

The Linguasphere Observatory. (2006). Recuperado en Marzo de 2006 de http://www.linguasphere.org/

Tramullas Saz, J. (2001). “La recuperación de información en el World Wide Web”. En J. López Yepes (coord.) Manual de Ciencias de la Documentación. Madrid: Síntesis.

UNESCO (2005). Hacia las sociedades del conocimiento. París: Ediciones UNESCO

Zook, M. (2009). Zooknic. Internet intelligence. Recuperado en Agosto de 2009 de http://www.zooknic.com/

Documents

Gestión de la Información: organización, búsqueda y ... personal_EM.pdf · Sistemas de organización de la información 2.2.1. Clasificación decimal universal –CDU– 2.2.2