Título: «Aplicación de un proceso de calidad y normalización de datos sobre sistemas de declaraciones de juicios por delitos de lesa humanidad”
Resumen
En un entorno como el actual, los sistemas cuentan con grandes cantidades de información y datos que hacen compleja su organización y manipulación. A su vez, como los datos en general son recogidos por distintos canales, a menudo la mayoría de ellos no se utilizan o no son útiles. Es frecuente entonces, que las organizaciones se enfrenten a un grave problema: los datos “sucios”. Es decir, datos que poseen una estructura incorrecta, información repetida, mal organizada, imprecisa, con datos nulos (que no ofrecen información relevante) o simplemente incompletos, entre otros.
Consecuentemente, a la hora de transformar estos datos disponibles, uno de los grandes problemas es la diversidad de estructuras y formatos de la información fuente lo cual puede afectar a las organizaciones. Para evitar este riesgo, la integración de fuentes de datos define arquitecturas, modelos e infraestructuras de software que habilitan el acceso y procesamiento de aquellos datos almacenados en fuentes heterogéneas. De esa forma, se pueden construir estructuras homogéneas y semánticas comunes, a fin de que las organizaciones cuenten con datos de calidad.
De esta forma, la motivación del presente trabajo es el análisis de grandes volúmenes de datos provenientes de diferentes fuentes que almacenan información textual (de las declaraciones y testimonios sobre crímenes de lesa humanidad) con formatos de texto extensos y sin estructura, imprecisión, desnormalización, redundancia, entre otras. Así se propone realizar un proceso de ETL (extracción-transformación-car
En resumen, el objetivo de esta tesis es llevar a cabo un proceso de ETL abarcando el análisis de los datos, el diseño de un proceso de transformaciones y la implementación de los diseños sobre una fracción
de los datos fuentes. También, tenemos como objetivo diseñar e implementar un sitio web que permita a los usuarios consultar la información reestructurada. Por lo tanto, esta tesis contribuye a mostrar una experiencia real
sobre la aplicación de un proceso ETL sobre datos de texto, aportando decisiones y lecciones aprendidas del trabajo conjunto entre informáticos y expertos del dominio, la metodología de diseño del proceso ETL y la aplicación de una herramienta de código abierto que puede resultar de interés y a su vez ser extendida a situaciones similares.