Nuevos métodos híbridos de computación flexible para clasificación multietiqueta
La presente tesis aborda el estudio de nuevas técnicas de tratamiento de los datos con el objetivo de mejorar el funcionamiento de los sistemas de clasificación multietiqueta. La motivación de este trabajo está en el cada vez mayor número de campos de aplicación de dicho tipo de clasificación, a raíz de la necesidad de etiquetar documentos de todo tipo: textos, imágenes, vídeos, música, etc., y su utilidad en otros campos como la medicina y la genética, especialmente la predicción de funciones de proteínas.
En el desarrollo de la tesis se siguen fundamentalmente dos estrategias: aprovechar la información de correlación entre etiquetas a fin de reducir la dimensionalidad del espacio de salida, por una parte, y analizar las características específicas de los conjuntos de datos multietiqueta a fin de proponer algoritmos de preprocesamiento a medida para reducir el desequilibrio entre etiquetas y mejorar el rendimiento de los clasificadores. El trabajo en estas dos vías ha llevado al diseño y desarrollo de múltiples algoritmos recogidos en la tesis, cuya finalidad se resume a continuación:
- LI-MLC: Es un método en el que se hibrida un algoritmo de minería de reglas de asociación con métodos de clasificación multietiqueta existentes, reduciendo la dimensionalidad del espacio de salida a fin de mejorar el rendimiento y la eficiencia.
- LP-ROS/LP-RUS: Métodos de remuestreo aleatorio basados en la técnica de transformación para conjuntos de datos multietiqueta conocida como LP (Label Powerset).
- ML-ROS/ML-RUS: Métodos de remuestreo aleatorio basados en el análisis individual de la frecuencia de aparición de cada etiqueta en el conjunto de datos.
- MLSMOTE: Algoritmo de generación de instancias sintéticas para conjuntos de datos multietiqueta.
- MLeNN: Algoritmo de eliminación de instancias basado en la regla del vecino más cercano.
- REMEDIAL: Método de preprocesamiento que permite mejorar el rendimiento en clasificación mediante la separación de etiquetas con desbalanceo.
Además de los citados algoritmos, junto con su correspondiente experimentación, la tesis también propone múltiples medidas de caracterización para conjuntos de datos multietiqueta y el análisis justificado sobre su utilidad y aplicación.