Big data y bibliotecas

Traducción: INMACULADA MORALES LUCAS (2016)

(Manuefig, (2015): “Big Data et bibliothèques“. Figoblog)

El Big data (“datos masivos” para los que prefieran el español) no es un concepto muy nuevo, sino que hace ya algunos años que se habla de él; además, el ciclo de sobreexpectación de Gartner lo coloca en 2014 en la cuesta abajo que se hunde en el barranco de la desilusión. Por tanto, deduzco, que es el momento oportuno para que las bibliotecas comiencen a interesarse por ello seriamente – pero no porque las bibliotecas sólo se interesen por lo que ya está anticuado, sino porque comienzan a ver más allá del efecto para dirigirse hacia la plataforma de la estabilidad.

En cualquier caso, es el momento que he elegido para hacer una reflexión sobre el tema. Por adelantado, pido disculpas a los posibles lectores del Figoblog, ya que este trabajo tiene carácter retrospectivo y ha sido realizado en un tiempo limitado. Si tenéis críticas o referencias interesantes que yo haya pasado por alto, no dudéis en mencionarlas en los comentarios.

En primer lugar, algunos elementos de definición (también los podéis ver en Wikipedia): el Big data se caracteriza por la norma de las 3 V: volumen, velocidad, y variedad. Se habla de cantidades enormes de datos (del orden del tera o petabyte, o incluso más) producidos en un tiempo del orden del segundo y que pueden ser de todas clases: estructurados o no estructurados, de texto, imagen, mail, entre otras. El ejemplo perfecto es Twitter, que genera 7 terabytes de datos al día (también según Wikipedia).

Debido a las 3 V, los datos en cuestión no son manipulables con las herramientas clásicas como las bases de datos relacionales. Y es que el desafío consiste en explotarlos en tiempo real; el ejemplo típico es el análisis de los operadores de los datos de las bolsas bursátiles, donde todo puede jugarse en un nanosegundo. Se crearon, pues, algunas herramientas específicas para permitir almacenarlos y paralelizar las peticiones, el más conocido es seguramente el framework Apache Hadoop.

Para saber en qué nos puede interesar esto, os invito, bibliotecarios, a leer por ejemplo esta introducción básica al Big data en la web de ALA (2013) o a echar un vistazo a este diaporama de la Library of Congress (2012). Si tenéis un poco más de tiempo, un curso online (de alrededor de 1h, 2013) está disponible en la web Digitization 101 (en la que hacía una barbaridad que no entraba, ¡me ha encantado volver a ver a Jill en el video!) Me vais a decir que no hago más que proponeros páginas antiguas en inglés… Así que os sugiero que veáis los videos en francés del coloquio “Qué estrategias de investigación utilizar ante la nueva masificación de los datos” organizado por el ADBU en diciembre de 2014. No obstante, nos muestra más bien un panorama de los desafíos estratégicos más que explicaciones o soluciones técnicas.

Para sintetizar, hoy identificaré tres puntos de reflexión para las bibliotecas.

La primera reflexión reside en el hecho de que “los datos” son cada vez más un objeto que las bibliotecas de investigación en particular van a tener que recoger y conservar, ya que se trata del producto del trabajo de los investigadores, de igual manera que se hacía antes para su producción documental impresa y posteriormente digitalizada (artículos, tesis, etc.). Ahora bien, estos datos tienen características diferentes de los documentos: se presentan en forma de flujo y no de almacenamiento (“data is a lifecycle”) y requieren herramientas de análisis para poder ser utilizadas.
Un ejemplo de aplicación de estas reflexiones en la biblioteca de la Universidad de San Diego se explica en este vídeo de 30 minutos (diciembre de 2013): https://youtu.be/-5TC_e55r9s

La segunda reflexión consiste en la utilización del Big data para analizar las estadísticas de consulta de las bibliotecas con el fin de prestar nuevos servicios a los usuarios o a los bibliotecarios. Es lo que hace la red de bibliotecas de Singapur, una red de bibliotecas públicas que ha desarrollado la utilización del Big data para analizar las estadísticas de los préstamos en relación con los datos bibliográficos y así proponer recomendaciones a sus usuarios.
Esta tecnología también se utiliza para gestionar la política de adquisiciones teniendo en cuenta datos como el perfil sociológico de los lectores que frecuentan cada biblioteca de la red, las restricciones del lugar y la tasa de rotación de las colecciones.
El artículo presenta una evolución interesante sobre la metodología de la implementación de los proyectos Big data: en efecto, cada aplicación Big data para un uso particular se percibe como un proyecto en sí mismo, con su propio equipo que trabaja sobre el perfilado de los datos que deben utilizarse.

Por último, la tercera reflexión es la evolución de los usos de los investigadores. Encontré un poco por casualidad este informe de una jornada de estudio de los sociólogos en la British Library (2013) que me parece adecuado para ilustrar el problema. En algunas disciplinas, en particular en Humanidades, el interés de los investigadores en la explotación de las colecciones está desplazándose: ya no quieren “leer” el contenido de los documentos, sino explotar globalmente la colección y su organización llevada a cabo por los bibliotecarios, que pasan estos a ser relevantes como tales. Saber cuántos documentos se publicaron relativos a uno u otro tema, entre una u otra fecha, con qué frecuencia el nombre de una persona, de un lugar o de un concepto aparecen en un determinado corpus se convierten en elementos claves de investigación tan interesantes como lo que se podría aprender desgranando en detalle los documentos o estos corpus.
Por lo tanto, la cuestión es saber si las bibliotecas serán capaces de ofrecer a los investigadores un servicio de Big data de las colecciones que conservan: permitirles definir su propio corpus, sus criterios y aplicar herramientas de análisis para extraer nuevas informaciones a partir de los datos.

Recientemente tuve el placer de abrir de nuevo el expediente Archivos de Internet y por fin conseguí entrever la etapa que seguirá a la visión que tuve en 2009 en la jornada el día IIPC. Me faltaba entonces la idea de que las herramientas que permitirían estudiar estas colecciones no se limitarían a devolverlas tal cual o a indexarlas en pleno texto, sino que requerirían ser desmenuzarlas bajo todos los ángulos extrayendo, en la medida de lo posible, los datos. Si en los archivos de la web hay datos estructurados (por ejemplo, aquellos que serían resultado de la web de datos…) eso bien podría ser un activo de primera clase. Creo que tendré la ocasión de profundizar en esta idea en los próximos meses.

Concluyo mi reflexión con este reciente artículo sobre el Big data en Francia (vía GFII) que se preocupa por no verlo alzar el vuelo. Podéis también consultar la hoja de ruta Big data del Ministerio de Economía francés para acabar de convenceros de que las bibliotecas francesas tienen aún mucho camino por recorrer. Pero serán años interesantes.

Un último vínculo sólo para los geeks hardcore, encontrado sobre el perfil Twitter de Got que agradezco como siempre a los que debaten en casa sobre este tema.

Big data y bibliotecas

Buscar

Actividades culturales

Grupos de investigación

Revistas