Traducción: RAQUEL PÉREZ ANLLO (2015)
(Thelonious MOON (2015): “Données sans licence ne sont que ruine de la science”. Numeribib.)
El 16 de enero de 2015, la ADBS [en francés] (asociación francesa de profesionales de la información y documentación) llevó a cabo una jornada de estudio [en francés] dedicada a la gestión de datos en investigación que destacó por la diversidad de experiencias sobre el terreno y los ámbitos científicos tratados. Recuerdo especialmente la primera intervención, que presentaba de forma general un «Data Management Plan» multidisciplinario que buscaba ser útil para el conjunto de establecimientos de enseñanza superior pertenecientes a la Comunidad de Universidades y de Establecimientos de Investigación y de Enseñanza Superior Multidisciplinar de la Sorbona de París [en francés]. Se trata de una organización pionera en Francia y es muy probable que otros establecimientos universitarios sigan su mismo camino. Si lo desea, puede encontrar el conjunto de presentaciones en la página web del InVisu [en francés].
El reto de las licencias en el ámbito de Open Data
Durante esta jornada, el almacenaje del hardware de datos fue objeto de debate y, más concretamente, su conservación y puesta a disposición, así como la elaboración de políticas de cooperación junto con los laboratorios con el fin de recoger y conservar los datos normalizados en formatos interoperables. Sin embargo, aún no se ha hecho suficiente hincapié en el aspecto de la reutilización y, aún menos, en las condiciones jurídicas que la garanticen plenamente. No es que se hayan omitido las cuestiones jurídicas de las presentaciones, sino que se dedicaban más bien al caso particular de los silos de datos semiprivados, a los que solamente una parte de la población tiene acceso. Un ejemplo es BeQuali [en francés], un banco de encuestas cualitativas desarrollada por el «Centre de données socio-politiques UMS 828 IEP Paris-CNRS» (centro que vela por el registro y la difusión de resultados de encuestas de carácter social y político en Francia y a nivel internacional). Su objetivo es poner a disposición de los usuarios encuestas relacionadas con el ámbito de las ciencias humanas y sociales y, por motivos principalmente relacionados con la protección de la información personal, permite únicamente el acceso a la base de docentes y/o investigadores, así como de estudiantes que puedan justificar estar llevando a cabo un proyecto de investigación. La puesta en línea de BeQuali requiere dos años de reflexión acerca de los límites jurídicos que permitan el acceso controlado a la información.
Es evidente que se echaba en falta una puesta en perspectiva de la selección de las licencias aplicables a los datos de la investigación, puesto que están destinados a ser expuestos y utilizados de nuevo con total libertad. La cuestión del Open Data (datos abiertos) y las licencias idóneas continúa sin aparecer en las presentaciones de manera global.
Es sabido que una licencia sin la serie de datos correspondiente entraña múltiples riesgos. Puede ocurrir que ciertas redes sociales académicas se adueñen de los datos obtenidos a través de ciertas investigaciones, pudiendo revindicar la propiedad de los mismos en virtud de las Condiciones Generales de Uso que los investigadores firman en el momento en el que se inscriben en dichas páginas web. También podría darse el caso de que el acceso a este tipo de datos pase a ser de pago tras ser publicados en plataformas creadas por editores científicos. Una última opción es que se privaticen los datos científicos a través de contratos de investigación llevados a cabo por un establecimiento universitario y una empresa privada, incluso en el caso de que la financiación provenga en su mayor parte de los fondos públicos.
El reto que suponen las licencias puede tener también sus aspectos positivos. Una licencia que especifique las condiciones de reutilización de los datos científicos permite lograr tres objetivos:
- Imposición epistemológica de reutilización: la ciencia se construye a través de la reutilización, la confrontación y la crítica de trabajos anteriores. La explotación y la reutilización de los datos ya producidos son esenciales para el método científico.
- Imposición técnica de integración: en la era de los «Big data» (datos masivos), el intercambio de grandes volúmenes de datos exige la interoperabilidad de los mismos.
- Imposición jurídica de simplificación: «el conjunto de términos y condiciones relacionados con los datos hace difícil la integración legal en numerosos casos» (Protocol for Implementing Open Access Data [en inglés] de la fundación Science Commons).
Si tenemos esto en cuenta, ¿cuáles son las principales licencias recomendadas en materia de Open Data aplicada a los datos de la investigación?
CC0 y PDDL son las dos licencias principales estándar que permiten compartir los datos de la investigación
Varios sistemas de almacenamiento de datos de la investigación utilizan licencias estándar abiertas.
El caso de Dryad, sistema de almacenaje de datos especializado en biología de la evolución y ecología, es especialmente interesante. Los creadores de Dryad seleccionaron una licencia CC0 [en inglés], la cual permite la transferencia de datos en un «dominio público activo».
Si una licencia CC0 implica renunciar a los derechos de autor, ¿por qué escogerla [en inglés] frente a una licencia CC-BY? Porque la licencia CC0 fue concebida para evitar los obstáculos jurídicos relacionados con la reivindicación de los derechos de autor. Por lo tanto, tal y como explica claramente el equipo de Dryad en su blog [1] [en inglés], la licencia CC0 obliga a los investigadores a citar sus fuentes, al igual que lo hacen las normas universitarias durante los exámenes, por ejemplo. La sección de preguntas frecuentes [en inglés] de los «Panton Principles for Open Data in Science» de la «Open Knowledge Foundation (OKFN)»:
Q11: What are community norms and why are they important?
A given community has a set way of working, an intrinsic methodology of activities, processes and working practices for which a consensus exists for the appropriate way in which these practices are carried out. For example, in the scholarly research community the act of citation is a commonly held community norm when reusing another community member’s work.
Community norms can be a much more effective way of encouraging positive behaviour, such as citation, than applying licenses. A well functioning community supports its members in their application of norms, whereas licences can only be enforced through court action and thus invite people to ignore them when they are confident that this is unlikely.
(Pregunta 11: ¿Qué son las normas comunitarias y por qué son importantes?
Una comunidad tiene una forma específica de trabajar, una metodología intrínseca de actuación y desarrolla unas prácticas laborales concretas. Para todo ello existe un consenso que permite llevar a cabo su trabajo de manera adecuada. Por ejemplo, la comunidad de investigación escolar utiliza una norma común a la hora de citar cuando está reutilizando el trabajo de otro miembro de la comunidad.
Las normas comunitarias pueden ser un método mucho más efectivo de lograr un comportamiento positivo (como por ejemplo la citación) que las licencias.
Una comunidad que funcione adecuadamente sostiene que sus miembros apliquen las normas estipuladas, mientras que las licencias solo pueden ser aplicadas durante un corto período de tiempo, lo que puede provocar que la gente las ignore cuando consideran que no son necesarias).
Lejos de abrir paso a las licencias, las prácticas que se basan en normas comunitarias son mucho más eficaces que las cláusulas contractuales.
Tomemos un caso diferente. Los creadores de Pangaea [en inglés], sistema alemán de almacenaje de datos especializado en ciencias marinas, decidieron seleccionar una licencia Creative Commons Attribution (CC-BY) [en inglés]. Sin embargo, debemos plantearnos si esta ha sido la decisión adecuada, ya que va en contra de las recomendaciones que la fundación «Science Commons» menciona en su «Protocol for Implementing Open Access Data» [en inglés]:
“5.3 Attribution stacking
Last, there is a problem of cascading attribution if attribution is required as part of a license approach. In a world of database integration and federation, attribution can easily cascade into a burden for scientists if a category error is made. Would a scientist need to attribute 40,000 data depositors in the event of a query across 40,000 data sets? How does this relate to the evolved norms of citation within a discipline, and does the attribution requirement indeed conflict with accepted norms in some disciplines? Indeed, failing to give attribution to all 40,000 sources could be the basis for a copyright infringement suit at worst, and at best, imposes a significant transaction cost on the scientist using the data.”
(5.3 Reparto de los datos almacenados:
Por último, existe un problema con la «atribución en cascada» cuando se requiere una atribución como parte de una licencia. En un mundo gobernado por los bancos de datos, este tipo de atribuciones pueden fácilmente derivar en una carga para los científicos si se comete algún error. ¿Debe entonces un científico atribuir un conjunto de 40 000 unidades de datos a 40 000 participantes? ¿Qué relación guarda esto con las normas de citación de una disciplina? ¿Y es la atribución siempre motivo de conflicto en un ámbito regido por sus propias normas en algunas de ellas? En realidad, dar crédito a las 40 000 fuentes de información podría suponer una infracción del copyright en el peor de los casos. En el mejor, se impondría un importante coste de transacción a los científicos que utilizasen estos datos).
Efectivamente, durante una búsqueda llevada a cabo a partir de un número considerable de bases de datos, no resultaría lógico citar a cada participante en esa serie de datos. La licencia CC-BY está, por lo tanto, mal diseñada.
Dejando de lado la licencia CC0, ¿permiten las demás licencias garantizar la total libertad de intercambio de datos de la investigación? Existe ya un gran número de licencias estándar que se rigen por la idea del Open Data. Algunas son licencias nacionales, como la Licence Ouverte[en francés] de la «misión Etalab». Otro ejemplo son las tres licencias Open Data Commons [en inglés] de la Open «Knowledge Foundation»: la licencia ODbl («Open Database License»), la licencia ODC-By («Open Data Commons Attribution License») y la licencia PDDL («Public Domain Dedication and Licence»).
Sin embargo, de entre todas estas licencias, solo la última permite, al igual que la CC0, transferir los datos de la investigación al dominio público. Esta es la razón por la cual la OKFN recomienda encarecidamente el uso de una de estas licencias para los datos de la investigación (punto 4 de los Principios de Panton [en inglés]):
“Furthermore, in science it is STRONGLY recommended that data, especially where publicly funded, be explicitly placed in the public domain via the use of the Public Domain Dedication and Licence or Creative Commons Zero Waiver. This is in keeping with the public funding of much scientific research and the general ethos of sharing and re-use within the scientific community. Explicit dedication of data underlying published science into the public domain via PDDL or CCZero is strongly recommended and ensures compliance with both the Science Commons Protocol for Implementing Open Access Data and the Open Knowledge/Data Definition.”
(Además, en el ámbito científico se recomienda ENCARECIDAMENTE que los datos, en especial aquellos que se pongan a disposición del público, sean incluidos en el dominio público a través del uso de una licencia PDDL o una licencia Creative Commons Zero Waiver. El propósito es mantener los datos en el ámbito público la mayor parte de la investigación científica y la filosofía de compartirla y reutilizarla dentro de la comunidad científica. Se recomienda también que se destaquen aquellos datos científicos de dominio público a través de una licencia PDDL o CCZero, ya que garantiza la conformidad entre el Science Commons Protocol for Implementing Open Access Data y el Open Knowledge/Data Definition).
Según el Datahub [en inglés] de la OKFN, actualmente existen en todo el mundo 190 series de datos bajo licencia PDDL y 441 bajo licencia CC0.
¿CGU o licencia abierta estándar?
Una de las preguntas que me hice en una publicación anterior [en francés] es la siguiente: ¿es posible poner a disposición de los usuarios los datos de la investigación sin una licencia estándar? En un principio, una licencia típica puede resultar beneficiosa si se concretan unas condiciones generales de utilización que determinen las condiciones de reutilización de los datos depositados. A continuación presento algunos ejemplos:
- GenBank [en inglés]: “NCBI places no restrictions on the use or distribution of the GenBank data. However, some submitters may claim patent, copyright, or other intellectual property rights in all or a portion of the data they have submitted.”
(El NCBI (Centro Nacional para la Información Biotecnológica) no establece restricciones en cuanto al uso o distribución de los datos de GenBank. Sin embargo, ciertos usuarios pueden exigir una patente, copyright u otro tipo de derechos de la propiedad intelectual para toda o parte de la información que han compartido).
- International Nucleotide Sequence Datra Base Collection[en inglés] (INSDC):
“1. The INSD has a uniform policy of free and unrestricted access to all of the data records their databases contain. Scientists worldwide can access these records to plan experiments or publish any analysis or critique. Appropriate credit is given by citing the original submission, following the practices of scientists utilizing published scientific literature.
2. The INSD will not attach statements to records that restrict access to the data, limit the use of the information in these records, or prohibit certain types of publications based on these records. Specifically, no use restrictions or licensing requirements will be included in any sequence data records, and no restrictions or licensing fees will be placed on the redistribution or use of the database by any party.”
(1. El INSD sigue una política uniforme de acceso libre y sin restricciones a todos los datos contenidos en su base. Científicos de todo el mundo pueden acceder a ella para recoger información con la que llevar a cabo sus experimentos, publicaciones, análisis o críticas. Se ofrece el reconocimiento merecido al citar el trabajo original, siguiendo el ejemplo de los científicos que publican literatura científica.
2. El INSD no incluirá declaraciones que restrinjan el acceso a los datos, limiten el uso de la información recogida en sus bases o prohíba ciertos tipos de publicaciones basadas en la misma. Más concretamente, no se establecerá ningún tipo de restricción o licencia en ninguna de las series de datos. Tampoco se exigirá el pago de ningún tipo en caso de redistribución o uso de la base de datos).
- National Center for Biotechnology Information (NCBI)[en inglés]:
“Information that is created by or for the US government on this site is within the public domain. Public domain information on the National Library of Medicine (NLM) Web pages may be freely distributed and copied. However, it is requested that in any subsequent use of this work, NLM be given appropriate acknowledgment.”
(La información creada por el Gobierno estadounidense que aparece en esta página pertenece al dominio público. Se puede distribuir y copiar libremente la información que aparece en la página web de la National Library of Medicine (NLM).Sin embargo, rogamos que, en caso de utilizar esta información, se le dé al NLM el reconocimiento que merece).
- Human Genome Projetc [en inglés]:
“Unless otherwise noted, publications and webpages on this site were created for the U.S. Department of Energy Human Genome Project program and are in the public domain. Permission to use these documents is not needed, but credit the U.S. Department of Energy Human Genome Project and provide the URL http://www.ornl.gov/hgmis when using them. Materials provided by third parties are identified as such and not available for free use.”
(Excepto que se especifique lo contrario, las presentes publicaciones y páginas web han sido creadas para el departamento encargado del Proyecto del Genoma Humano y son de dominio público. No se requiere de un permiso para utilizar estos documentos, aunque se pide que se acredite adecuadamente al departamento, incluyendo la URL: http://www.ornl.gov/hgmis [en inglés]. Los materiales proporcionados por terceros están identificados como tales y no están disponibles para su uso libre).
Estos cuatro ejemplos pueden hacernos pensar que no es necesario utilizar una licencia para una serie de datos. Sin embargo, los casos citados tratan bases en relación con la investigación genómica a nivel mundial. Las normas de reutilización son bien conocidas y aplicadas por parte de la comunidad científica desde hace varios años o, incluso, décadas. Fueron elaboradas en un momento en el que la búsqueda de datos aún estaba comenzando a surgir.
Una época en la que los «Big data» (datos masivos) suponían una revolución epistemológica [en inglés] de la que aún no hemos podido extraer todas sus ventajas. Una época en la que las técnicas de extracción automatizada de datos permiten consultar a la vez una infinita red de recursos. Una época en la que la producción de series de datos, que se ha convertido en una parte esencial del avance científico, ha sufrido un desarrollo exponencial. Es en esta época en la que parece necesario decantarse por las licencias estándar con el fin de facilitar la reutilización de estas series de datos.
En definitiva, de ellos depende ni más ni menos la visibilidad internacional de los resultados de las investigaciones científicas francesas: sin ser reutilizadas, sin destacar… Las observaciones del informe «Trojette sur l’ouverture des données publiques» [en francés] se pueden aplicar también a la investigación:
«La administración debería favorecer que se recurra a las licencias típicas, ya que aquellas temporales serán pronto compatibles con las primeras. Estas licencias típicas podrían suponer la ventaja de ser compatibles con los estándares internacionales (en las que Francia debe participar) y de ser objeto de traducción para lograr así que destaquen más allá de las fronteras francesas».
***
Por último, pero no menos importante, y dejando de lado los datos de la investigación, contando con una mayor capacidad para adaptarnos a la diversidad (o, dicho de otra forma, si ninguna licencia se encarga de especificar las condiciones de reutilización de los datos), podríamos llegar a la situación contraria de aquella que deseamos. Refiriéndome a una sentencia del Tribunal de Justicia de la Unión Europea, tal indeterminación podría entenderse como un cierre automático centralizado en lugar de un proceso de apertura y repartición de los datos… [en francés].
[1] Referencia extraída de las memorias de Rémi Gaillard, «De l’Open data à l’Open research data : quelle(s) politique(s) pour les données de recherche? [en francés]» , ENSSIB, enero de 2014.