Título: «Normalización de textos en Español provenientes de redes sociales«
Tesista: Ángel Adrán Addati
Directora: Esp. Sandra Roger
Carrera: Licenciatura en Ciencias de la Computación
Día: 23 de abril de 2019
Resumen
La Minería de opinión es una rama dentro del Procesamiento de Lenguaje Natural dedicada a la extracción de sentimientos de textos escritos en lenguaje informal. En general, estos textos provienen de mensajes en redes sociales, lo que genera una baja calidad en los mismos, conteniendo múltiples errores y palabras no estándares propias del ciberlenguaje (lenguaje de internet). En consecuencia se hace necesaria una primera fase de preprocesamiento responsable de transformar este texto de entrada en una forma libre de errores y de mejor calidad, sin perder el contenido semántico. Esta tarea se denomina: Normalización.
El propósito de la tesis es presentar un modelo de normalización que se diferencia de las propuestas existentes en abarcar de manera simultanea los siguientes tres pilares: es específico para la tarea de normalización, es un componente independiente reutilizable y está especializado en los fenómenos existentes en textos provenientes de redes sociales. Para hacer esto se hace necesario sentar las bases conceptuales del estado del arte de la normalización: definiciones, enfoques, tipologías de casos a resolver, estrategias, etc. Con los conceptos profundizados se establece el modelo conceptual de qué es lo que debe resolver y cómo debe realizarlo. Para el qué se brinda una tipología original y exhaustiva de todos los casos a tratar incluyendo los casos comunes que debe resolver cualquier corrector ortográfico (tal es el uso incorrecto de reglas ortográficas, por ejemplo la utilización de «v» en lugar de «b») y casos particulares de la red social (por ejemplo el uso de emoticones y abreviaciones). Para el cómo se presenta el modelo de normalización propuesto de 5 etapas progresivas: Segmentación; Clasificación de palabras dentro y fuera del lenguaje; Generación de candidatos; Selección y Mejora continua.
Finalmente, se diseña, implementa y valida un desarrollo parcial de este modelo propuesto para mensajes en español de Twitter. La finalidad será demostrar de forma práctica la potencialidad de lo conceptualmente establecido. Esto resultó en un prototipo funcionalmente operativo y con un rendimiento aceptable en la resolución de los casos planteados.