La evolución del modelo de recopilación de datos en las bibliotecas digitales

Traducción: MABEL RÍOS HERNÁNDEZ (2016)

(Bermès, Emmanuelle (2016): “L’évolution du modèle d’agrégation de données dans les bibliothèques numériques“. Figoblog)

En este artículo he reunido algunas reflexiones y observaciones inspiradas de manera notable por mis trabajos en Europeana durante estos últimos meses. Todo forma parte de un sentimiento difuso hacia la recopilación, tal y como la conocemos hoy en día, que está evolucionando, aunque resulte difícil saber hacia dónde, dado que nunca he leído ninguna teoría excesivamente fundamentada acerca de este tema. Por ello, el hecho de no haber encontrado mucho acerca de este tema, hace que proponga hoy esto.

Al comienzo…

Hacia mediados de los años 2000, cuando las bibliotecas digitales como Gallica o Europeana comenzaron a tener la ambición de alcanzar una masa de capacidad crítica, definieron un modelo de recopilación de datos, es decir, un método que permitía reunir en una única interfaz los datos procedentes de numerosas instituciones. Este modelo de recopilación estaba esencialmente basado en el protocolo OAI-PMH, principalmente inspirado por aquello que sucedía dentro de la comunidad de archivos abiertos.

Los principios de este modelo son relativamente simples:

* desde el punto de vista técnico, el protocolo OAI-PMH ofrece un marco transversal con profesiones de la documentación, del patrimonio y de la información científica y técnica. De acuerdo con los estándares de la web, se basa en normas de implementación sencilla y de programas de código abierto con apenas complejidad como una plataforma LAMP, al alcance de cualquier usuario que sepa un poco lo que hace.

* desde el punto de vista de los metadatos, el formato Dublin Core denominado «simple», junto con sus 15 elementos facultativos y repetitivos, sirve de denominador común para la convergencia sintáctica (tener metadatos que «caben en el mismo molde» para tomar como metáfora culinaria –pero la forma del molde no garantiza que se utilice la misma receta para la masa del pastel). El hecho de poder adjuntar cualquier formato más complejo en el momento que pueda expresarse en XML parecía en principio un consuelo suficiente para los usos más avanzados. En conclusión, se replantea el asincronismo del sistema (cosecha de metadatos que ya se han almacenado en un nuevo depósito para construir los servicios) y acerca de las tecnologías como los motores de búsqueda del texto con todos sus matices.

*desde el punto de vista de los contenidos, los argumentos políticos e institucionales alegan en favor de una consulta de documentos digitalizados en la página web correspondiente de cada institución, lo que les permitía preservar su imagen (su «marca») y su audiencia, generalmente el único indicador del éxito de un servicio de biblioteca digital.

Este modelo de recopilación ha servido de base para la construcción de la primera versión del portal de Europeana, que había definido para ello el modelo ESE (Elementos Semánticos de Europeana), un tipo de corriente continua simple aumentada por algunos elementos de origen. La simplicidad técnica del modelo ha permitido una rápida implementación destapando la cosecha de los metadatos que describen millones de objetos culturales en solo algunos meses: un «quick win», de algún modo. En este modelo, la interoperabilidad semántica (la famosa receta de la masa del pastel, mencionada en líneas anteriores) ha sido asegurada por terceros llamados «agregadores», encargados por el dominio nacional o temático de velar por la homogeneidad de los datos gracias a estas buenas prácticas o de tratamientos.

Lo que la web de datos ha cambiado en el modelo de agregación

Sin embargo, casi en la época en la que este modelo señalaba a gran escala, ya se veía otro modelo de agregación que se apuntaba a sí mismo: el Linked Open Data (web de datos en francés).

Eso no se les escapó a los diseñadores de Europeana quienes soñaban con algo diferente al enésimo portal de metadatos como ya existían muchos. En un proceso de larga duración, el modelo de metadatos EDM (Europeana Data Model)fue pensado para desarrollar el ESE, intensificando sus capacidades. Por lo tanto, se piensa que la interoperabilidad a través de enlaces, propia de una web de datos, ha sido llamada a reemplazar la agregación por recopilación.

Pero no era tan sencillo…

*desde el punto de vista técnico, la web de datos aparece como la nueva generación que lo tiene todo para reemplazar a la OAI-PMH: aún más integrada en la estructura de la red, traspasa las fronteras de las especialidades y de los dominios y, en teoría, se libera de todos los problemas relacionados con el almacenamiento de datos (a pesar de que en la estructura de la web, el entorno donde los datos se almacenan, acaba abstraído por el uso de URI y del hipertexto). No obstante, en la práctica, la construcción de nuevos servicios a partir de estos datos sigue necesitando una forma de recopilación; ahora bien, no se dispone en la web de datos de mecanismos muy prácticos provistos por OAI-PMH para este fin (la fecha y hora de los datos solo permite recuperar las actualizaciones, junto con los registros eliminados, por ejemplo). Al fin y al cabo, todo este nuevo entorno técnico hacía un llamamiento a competencias que no aseguraban nada a los técnicos informáticos, lo que ha podido frenar las reutilizaciones y las agregaciones de datos que utilizan estos principios más allá de prototipos puntuales.

*desde el punto de vista de los datos, el modelo RDF presenta la ventaja de autorizar la descripción de recursos no documentales, las «entidades» que interactúan con los documentos: personas y otros agentes, temas, lugares, periodos temporales… La web de datos ha contribuido a rehabilitar aquello que en las bibliotecas llamamos «datos de autoridad», reafirmando su utilidad dado su carácter esencial para permitir la interoperabilidad no solo sintáctica, sino también semántica (la masa del pastel, no la forma del molde) de los datos. El mito del motor de búsqueda mágico que sería capaz, mediante procesos automáticos, de compensar la ausencia de sistemas de referencia se derrumbó cuando se constató que los motores funcionarían incluso mucho mejor si se introdujesen datos mucho más ricos. El inconveniente de estos modelos reside, sin embargo, en su complejidad, que ha podido en ciertos casos frenar su adopción, especialmente en ausencia de competencias informáticas adecuadas. Por otra parte, la modelización de vocabulario u ontologías destinadas a representar toda la riqueza de la información de las instituciones patrimoniales y científicas es un desafío que se resiste a toda tentativa de unificación o de consenso: es, además, el espíritu de la web de datos el que autoriza la coexistencia o cohabitación de la mayoría de los modelos conectados entre sí.

*desde el punto de vista de los contenidos: RAS, no están al tanto de esta fase y permanecen accesibles siguiendo modalidades más o menos similares al modelo de agregación precedente.

Por parte de Europeana puede mencionarse, además de la puesta en práctica de EDM en el seno de un número creciente de proyectos temáticos, la creación de un almacén en Linked Open Data que permite la redistribución de datos en RDF y en SPARQL. El portal por sí mismo emigró a EDM en el año 2013, pero está última versión bautizada como «Europeana Collections» no obtiene aún todo el partido de la riqueza del modelo.

La página web data.bnf.frnació en la BnF, pero no es más que la hermana pequeña de Gallica, del que se abastece de enlaces sin alterar su existencia. Brevemente, se puede hablar de una fase de «despertar» que lleva a examinar bajo una nueva luz las posibilidades y a percibir la necesidad de un verdadero modelo de agregación que sobrepase los límites de OAI-PMH, y que extraiga las enseñanzas de la web de datos.

Hacia un modelo de mutualización

En un contexto de medios restringidos pero también de evolución de la tecnología y de los usos, comienza a surgir, hoy en día, un nuevo modelo, basado en el principio de la mutualización de inversiones y, especialmente, de infraestructuras.

*desde el punto de vista técnico, se trata de mutualizar las infraestructuras desde el punto de vista del almacenamiento de datos e incluso de su tratamiento (conversiones, difusión…). Los datos pasan por los mismos filtros y los mismos procesadores, aquellos que representan una economía a la par en recursos de maquinaria y en desarrollo de herramientas. Los modelos del tipo nube permiten efectuar esa mutualización en los espacios físicamente comunes pero, lógicamente, independientes (a la manera de los moldes para magdalenas). No existe necesariamente una agregación en este punto, pero será evidentemente facilitada posteriormente.

*desde el punto de vista de los datos, la ambición reside en sobrepasar los límites ligados a la adopción de un modelo o un formato común. Se esperan nuevas herramientas que sean suficientemente flexibles para adaptarse a todo tipo de formatos y que soporten fácilmente las conversiones de uno a otro: es la lección extraída de etapas precedentes que han demostrado que siempre es preferible trabajar con los datos en su formato original que ningún formato «común» o incluso rico pueda reemplazar. La web de datos posee un modelo de interoperabilidad prometedor gracias a URI, a los enlaces entre las fuentes y a la serialización JSON-LD, mucho más simple que la sintaxis utilizada previamente para explicar el RDF. Vocabularios como Schema.org tienen como objetivo permitir hacer una web semántica como Jourdain hizo con la prosa.

*desde el punto de vista de los contenidos: en la esfera cultural comenzamos a sobrepasar el paradigma que quería que los contenidos, por razones políticas, no solo fueran accesibles a través del enlace original. Esta situación se ha vuelto insostenible (si alguna vez lo fue) desde el punto de vista de los usos. Ya sea desde el punto de vista de los archivos o a través de API como IIIF, que ofrece un mecanismo para llamar de manera distante a las imágenes numeradas con sus metadatos en JSON-LD, se tiende a la agregación de contenidos por sí mismos en la interfaz común, lo que permite mutualizar igualmente las herramientas complejas, que son las que visualizan los documentos.

Para continuar con estos dos ejemplos, Gallica y Europeana han iniciado una mutación progresiva hacia un nuevo modelo. Por parte de Gallica, esto se materializa a través de la integración de documentos compañeros que aún no habían encontrado su herramienta de difusión y a través de la realización de bibliotecas digitales de «marca blanca», Numistral y Grande Collecte. Por parte de Europeana, el nuevo portal de Collections, utiliza IIIF para presentar directamente en su página web los medios digitalizados, con un zoom de alta resolución y un hojeado si se diera el caso.

Detrás de esta modificación, en apariencia puntual se esconde, de hecho, una revisión completa del modelo de agregación que se perfila por parte de Europeana. Tras haber definido un marco de publicación (Europeana Publishing Framework) y, en asociación con DPLA, un marco jurídico, a día de hoy Europeana se pregunta a través del foro de agregadores sobre el papel y la función de estos últimos. El proyecto Europeana Cloud,que se desarrolló desde 2013 hasta 2016, permite imaginar un porvenir donde numerosas funciones de almacenamiento y de tratamiento de datos serán mutualizadas bajo una infraestructura común, lo que evitará que los agregadores hagan frente a los mismos problemas con diferentes soluciones.

El papel de los agregadores evolucionaría hacia una función de experto al servicio de actores más modestos o diseminados, que les acompañarán en la agregación de datos directamente en la infraestructura meta. Podríamos imaginar la centralización de tratamientos costosos y complejos de aplicar como las alineaciones de referenciales o los enriquecimientos automáticos de metadatos. La utilización de mecanismos como IIIF presenta la ventaja de conservar la legibilidad de los flujos de audiencia, (se contabilizan sin embargo todos los éxitos en el enlace proveedor) todo favoreciendo los usos más fluidos. Es la promesa de poder no solo centralizar en los portales la visualización de contenidos, sino también constituir de manera más sencilla bibliotecas digitales nicho, autorizando y editorializando los contenidos seleccionados a nivel local.

En conclusión: ¿hoy, mañana o pasado?

Sin querer tener la libertad de leer en las entrañas, lo que he podido observar estos últimos meses me lleva a pensar que el nuevo modelo de agregación no está aún preparado y no lo estará hasta dentro de al menos 3 o 5 años. No dice aún su nombre y parece que hoy existe una mezcla de iniciativas en orden disperso por lo que resulta difícil ver el motivo global, a menos que se retroceda lo suficiente, lo que he tratado de plasmar aquí. Algunos aspectos técnicos incrementan la promesa y exigen la demostración de su viabilidad. También puede que haya sorpresas y veamos surgir nuevos dispositivos. Sin embargo, estoy convencida de que se tenderá inevitablemente hacia este nuevo modelo que se instalará primero en paralelo al modelo OAI-PMH, siempre eficaz, y de la web de datos que continúa en desarrollo.

Continuando, ¿quedamos en 3 años?

Me permito solicitarles, durante esta espera, a aquellos que han tenido el coraje de leer este largo artículo hasta el final:

-si aún tienen tiempo de hacer memoria del día anterior y si conocen otros ejemplos de modelos de agregación que evolucionan en el mismo sentido o en sentido diferente,

-si saben más que yo acerca de los aspectos técnicos y esto les inspira sugerencias y refutaciones,

-si agregan datos y si estas ideas les dicen algo, háganmelo saber en los comentarios aquí abajo, les estaré eternamente agradecida.

La evolución del modelo de recopilación de datos en las bibliotecas digitales

Buscar

Actividades culturales

Grupos de investigación

Revistas