Dentro de las aplicaciones reales de clasificación en ingeniería, existe un tipo de problema que se caracteriza por tener una distribución de ejemplos muy distinta entre sus clases. Esta situación se conoce como el problema de las clases no balanceadas y crea un impedimento para la correcta identificación de los diferentes conceptos que se requiere aprender. En muchos casos, la clase con un menor número de ejemplos (positiva o minoritaria) representa el concepto de mayor interés del problema, mientras que la clase con mayor número de ejemplos (negativa o mayoritaria) representa simplemente contraejemplos sobre la clase positiva. Entre las técnicas de Inteligencia Computacional empleadas para resolver los problemas de clasificación, los Sistemas de Clasificación Basados en Reglas Difusas Lingüísticas son una herramienta popular debido a la interpretabilidad de sus modelos asociados basados en variables lingüísticas, que son más fáciles de comprender para los usuarios finales o expertos.
Nuestro interés en esta memoria reside en el estudio del comportamiento de los Sistemas de Clasificación Basados en Reglas Difusas Lingüísticas aplicados al problema de los datos no balanceados, así como el desarrollo de métodos de aprendizaje que permitan alcanzar una buena separabilidad entre las clases positiva y negativa. También consideramos el uso de métodos evolutivos de aprendizaje y ajuste de sistemas basados en reglas difusas para analizar la calidad de los resultados obtenidos en el marco de trabajo propuesto. Por último, nuestra intención es la de extender el problema de clasificación no balanceada en conjuntos binarios a problemas multi-clase y definir una metodología que permita discriminar correctamente entre las distintas clases del conjunto de datos, independientemente de su distribución de ejemplos.
Para llevar a cabo este estudio, la presente memoria se divide en dos partes, la primera de ellas dedicada al planteamiento del problema y discusión de los resultados y la segunda correspondiente a las publicaciones asociadas al estudio. En la Parte I de la memoria comenzamos con una sección dedicada al "Planteamiento del Problema", introduciendo este con detalle y describiendo las técnicas utilizadas para resolverlo. Asimismo, definimos los problemas abiertos en este marco de trabajo que justifican la realización de esta memoria, así como los objetivos propuestos. Posteriormente, incluimos una sección de "Discusión de Resultados", que proporciona una información resumida de las propuestas y los resultados más interesantes obtenidos en las distintas partes en las que se divide el estudio. La sección "Comentarios Finales" resume los resultados obtenidos en esta memoria y presenta algunas conclusiones sobre estos, para finalmente comentar algunos aspectos sobre trabajos futuros que quedan abiertos en la presente memoria.
Por último, para desarrollar los objetivos planteados, la Parte II de la memoria está constituida por cinco publicaciones distribuidas en cuatro partes:
- Un Estudio del Comportamiento de los Sistemas de Clasificación Basados en Reglas Difusas Lingüísticas en el Ámbito de los Conjuntos de Datos No Balanceados - A Study Of The Behaviour Of Linguistic Fuzzy Rule Based Classification Systems In The Framework Of Imbalanced Data-Sets.
- Una Metodología de Aprendizaje mediante un Sistema Difuso Jerárquico para Datos No Balanceados - A Learning Methodology by means of a Hierarchical Fuzzy System for Imbalanced Data-sets
- Análisis de la Calidad Derivada del Uso de Sistemas Difusos Evolutivos para Sistemas de Clasificación Basados en Reglas Difusas Lingüísticas con Conjuntos de Datos no Balanceados - Analysis of the Quality Derived from the Use of Genetic Fuzzy Systems for Linguistic Fuzzy Rule Based Classification Systems with Imbalanced Data-sets
- Una Metodología para la Clasificación de Conjuntos de Datos No Balanceados Multi-clase Basada en Aprendizaje por Parejas y Preprocesamiento - A Methodology for the Classification of Multi-class Imbalanced Data-sets based on Pairwise Learning and Preprocessing