El TAG – Tesauro de la Actividad Gubernamental de Quebec: análisis de la experiencia

Traducción: FRANCISCA SÁNCHEZ MORENO (2015)

(SYLVIE DALBIN, 2014: “ Le TAG – Thésaurus de l’activité gouvernamentale du Québec : retour d’expérience”. Descripteurs)

Anunciado en octubre de 2014: Mayo de 2012 – Os había hablado del TAG (Tesauro de la Actividad Gubernamental) de Quebec. Octubre de 2014: difusión en formato skos de este tesauro: http://www.thesaurus.gouv.qc.ca/tag/consultation/oa.do [en francés]

Dirección para descarga directa – http://www.thesaurus.gouv.qc.ca/tag/tag_skos.xml

(Artículo de mayo de 2012)

En un artículo anterior [en francés] os presentamos el TAG, el Tesauro de la Actividad Gubernamental de Quebec. Nos habíamos puesto en contacto con los editores, que de buena gana, a distancia y por escrito, nos hablaron sobre su experiencia o, más concretamente, sobre la asociación de este tesauro con KEA++ [en inglés], que se ha utilizado para guiar la indexación automática y los proyectos para poner este recurso en la web (de datos).

Desde aquí quiero darles las gracias.

Así pues, os presento a Danielle Parent y Richard Parent (historial de la fabricación del tesauro [en francés]).

¿Qué motivó el desarrollo del TAG?

Cuando empezamos los trabajos, hacia el 2003, las necesidades de clasificación por temas de contenido de los documentos y dossiers sobre gestión de documentos y archivos sirvieron como motor para la elaboración de algunos esquemas de clasificación.

Para administrar el ciclo de vida de un esquema de clasificación, constituido por una colección de términos, nos pareció que la estructura de un tesauro era lo más apropiado, tanto por su uso como por su edición. Por tanto, el contexto era generalmente el de ofrecer un vocabulario controlado por la indexación de contenido en el ámbito administrativo. Sin embargo, los esfuerzos en este sentido fueron un éxito mitigado por dificultades para hacer progresar las prácticas en gestión de documentos y archivos. Un proyecto de “política de indexación”, que intenta convencer a las personas para contribuir a la introducción de metadatos de documentos creados y recibidos, siempre aparece como una suerte inaccesible. Los responsables administrativos no quieren comprometerse de esta forma, y mucho menos sabiendo que las prácticas de gestión documental son poco ejemplares y están poco valorizadas en nuestro ámbito administrativo. Así, los metadatos de clasificación no se ven mucho por las diversas pantallas radar, y la ventaja que supone un vocabulario controlado no está muy extendida. La percepción dominante es que se crean continuamente demasiados documentos para que tengamos como entretenimiento anotar el contenido con descriptores.

¿Este problema os llevó a modificar vuestra gestión?

Hoy, por tanto, las personas que utilizan el tesauro penden de nuestros esfuerzos. El principio de anotar los recursos con un vocabulario controlado está garantizado, pero el principal beneficio que esperamos se sitúa ahora en la capacidad de los motores de búsqueda para explotar la riqueza semántica del TAG, gracias al vehículo de estructura conceptual que ofrece el estándar SKOS. Los trabajos dirigidos en Nueva Zelanda sobre KEA++ [en inglés] permiten guiar de forma útil la indexación automática efectuada por el algoritmo estático de cálculo de pertinencia con la ayuda de asociaciones, en concreto jerárquicas. Hablamos de indexación supervisada ya sea por exclusión, antes del cálculo vectorial con base en el cálculo pertinente, con cadenas de caracteres extraídas del corpus, o bien, para ponderar más profundamente similitudes de colocación entre corpus y tesauro; hablamos también de categorización automática de los resultados, al reagrupar los elementos de los resultados en función de la estructura jerárquica del tesauro.

Esta perspectiva nos llevó a investigar un proyecto de preparación lo más rico posible. Un proyecto de estas características debe estar constituido por un corpus de documentos ya indexados por personas, de manera que el algoritmo pueda construir vectores para los descriptores. Ya existe un corpus indexado con un vocabulario comparable con el TAG: el Diario de los Debates de la Asamblea Nacional de Quebec [en francés]. A fin de que éste sirva como proyecto de preparación, y dada la existencia de un Tesauro del Diario de debates, se comenzó un trabajo de alineación semántica entre este tesauro y el TAG, un trabajo que sigue en curso en este momento. La proximidad entre los dos tesauros es grande, de modo que estamos en vías de enriquecer el TAG a través de la integración del otro tesauro en forma de nuevos descriptores, pero sobre todo por nuevos no-descriptores. Cuando se haya completado esta integración, el Diario de debates, que comprende decenas de millares de páginas indexadas por profesionales, servirá como proyecto de preparación para nuestro motor de búsqueda. Una vez superada esta etapa, iniciaremos la indexación automática de todos los documentos gubernamentales de Quebec, con los vectores de los descriptores alimentados por el Diario de debates. Entre los beneficios con los que contamos se sitúa la categorización automática de los resultados de una búsqueda, lo cual permite a la persona que realiza la localización hacer una selección por temas.

¿Tenéis algún otro proyecto en marcha?

Nuestra capacidad para producir un fichero SKOS adecuado está en vía de transición, de Java a C++, por motivos de disponibilidad de las competencias accesibles a nuestro modesto proyecto. De aquí a algunos meses, el TAG estará disponible en la web, en forma de fichero SKOS. En dos años contamos con llegar más lejos e introducir el TAG en la “Web semántica” trabajando en dos alineaciones semánticas, por una parte con el Tesauro de temas del gobierno de Canadá y, por otra parte, con Eurovoc. En los dos casos, se trata por supuesto de documentar la alineación con la versión en francés. SKOS servirá para publicar en la web estas alineaciones, con el objetivo de sacar beneficio de este servicio y proseguir con la interoperabilidad semántica. Al mismo tiempo, procederemos a la adopción de SPARQL [en francés], con dos objetivos: editar el TAG de la web 3.0 y sustituirlo en la nube de datos abiertos (LOD cloud).

¿Podéis hablarnos un poco sobre vosotros, los coeditores de este tesauro?

Richard Parent es psicólogo y está especializado en la orientación cognitiva (Universidad de Montreal). Danielle Parent tiene formación en ciencias matemáticas, letras y pedagogía. Después de haber enseñado francés como segunda lengua en la Comisión de la Función Pública de Canadá y en la Universidad Laval, durante cerca de diez años, inició su carrera en la función pública del Gobierno de Quebec como redactora y administradora de la página web para el Repertorio de los servicios gubernementales [en francés] de Quebec. La responsabilidad de la puesta al día de este índice llevó a Danielle a interesarse por el control del vocabulario. Ella comparte desde el principio la responsabilidad de la elaboración y la puesta al día del TAG a título de coeditora.

¿Qué les aconsejaríais a aquellos profesionales de la información documental que deseen embarcarse en este tipo de realización?

El lado organizativo de esta práctica comporta un papel importante de apoyo técnico: ¿cómo sacar un mayor provecho de un ambiente técnico complejo? Las exigencias de continuidad a largo plazo hacen que el aspecto lengua y cognición sean los más importantes: tener amor por las palabras y la lengua francesa, fortalecido por un espíritu cartesiano y buen juicio, son ventajas para este tipo de realización. Además de la minuciosidad, la paciencia y la pasión por el trabajo bien hecho, que aumentan las posibilidades de éxito. En resumen, tener un dominio alto, buenas herramientas y el apoyo de nuestra organización asegurarán una experiencia motivadora e inolvidable.

Infinitas gracias a Danielle y Richard y buena suerte en vuestros proyectos.

El TAG – Tesauro de la Actividad Gubernamental de Quebec: análisis de la experiencia

Buscar

Actividades culturales

Grupos de investigación

Revistas