Título: «Linked FAI: Una propuesta Web Semántica para la integración de repositorios científicos, digitales y públicoso”
Tesista: Gaston Emiliano Michelan
Directores: Dra. Laura Cecchi – Dr. Germán Braun
Carrera: Licenciatura en Ciencias de la Computación
Día: 9 de diciembre de 2019
Actualmente, se están comenzando a publicar abiertamente conjuntos de datos pertenecientes a diferentes áreas socioculturales, en particular, las correspondientes a las disciplinas científicas específicas (Geografía, Matemática, Biología, etc), con el objetivo de fomentar la visibilidad de la información y, por ende, la colaboración entre las diferentes instituciones de conocimiento como universidades, centros de investigación y empresas, entre otras. Es por ello que surge la necesidad de crear más fuentes de información y actualizar y/o reestructurar las existentes en diversos formatos, a un formato en común, permitiendo la integración de todas ellas con otras ya publicadas en la Web. Debido a esta necesidad, han surgido avances teóricos y prácticos para su solución.
Tim Berners-Lee, el creador de la World Wide Web, propone el concepto de Datos Enlazados (Linked Data) mediante la implementación de cuatro principios prácticos, los cuales se resumen en: (1) publicar y formatear la información utilizando estructuras de descripción de datos conocidas y no propietarias, (2) utilizar identificadores únicos para cada elemento y propiedad, para que cada uno sea unívoco y pueda ser apuntado o referido de manera directa e individualizada, (3) proporcionar información útil al desreferenciar cada recurso y (4) promover la reutilización de esa información, vinculando la misma con otra relacionada, perteneciente a otro conjunto de datos independiente. El esquema resultante, luego de aplicar estas premisas, es el de una gran nube de elementos interconectados que pueden ser navegados y, mediante la utilización de ontologías conocidas, permitir el descubrimiento de nuevas relaciones y conceptualizaciones, abriendo el paradigma a lo que se conoce como Web Semántica y permitiendo que la información pueda ser leída, inferida y enriquecida por las máquinas.
En lo que a nuestro país respecta, ya se han promulgado leyes que obligan a las instituciones científicas financiadas con bienes públicos, a compartir en forma abierta sus resultados de investigación, y en consecuencia, se han creado repositorios con tal fin.
En este contexto, se diseñó y desarrolló un framework utilizando lenguajes Web, que funciona bajo el paradigma de Datos Enlazados y Web Semántica. Éste, extrae la información científica publicada en diferentes páginas y en distintos formatos, la transforma en un formato particular, que describe los datos mediante metadatos, la almacena en bases de datos especiales que trabajan con triplas, la integra asignándoles identificadores únicos e interenlazándolos mediante ontologías, la enriquece y finalmente permite a los usuarios, de manera amigable, realizar consultas, obtener, inferir y cargar nueva información. Su funcionalidad hace al framework una herramienta potente para fomentar la colaboración entre las diferentes instituciones mundiales, sobre todo en el campo científico, siendo éste último el enfoque deseado en este trabajo.
Finalmente, a partir de la construcción de un prototipo basado en el framework presentado, se pudo integrar la información de las diversas fuentes, mostrando que no es necesario reconstruir los documentos en sí, sino transformar los existentes para luego incrementarlos y mantenerlos bajo este nuevo paradigma.