toSmartEADS

Hacia la extracción inteligente, explicable y precisa de conocimiento en problemas complejos de ciencias de datos

Objetivos claves

01.

Aprendizaje multietiqueta

02.

Flujos de datos y predicción de series temporales

03.

Inducción supervisada o descripción de reglas

04.

Métodos de extracción de modelos transparentes en el contexto del XAI

05.

Aplicaciones

Antecedentes y motivación

    Hoy día, diferentes fuentes de información de internet como redes sociales, sensores y otros dispositivos están ganando importancia en nuestra sociedad. Estas fuentes generan datos complejos en tiempo real (flujos de datos), en grandes cantidades, desde fuentes heterogéneas o con características multidimensionales. Todos estos elementos constituyen un entorno de trabajo conocido como Big Data. Compañías e instituciones están interesadas en el análisis de esta información para generar conocimiento.

    La Ciencia de Datos desarrolla continuamente técnicas para afrontar problemas complejos. Dentro de esta, área la inteligencia computacional, destacan desde técnicas tales como algoritmos evolutivos, sistemas de redes neuronales basados en reglas difusas. Esto incluye Deep Learning, donde el incremento de capas de una red neuronal permite la obtención soluciones mas precisas para los problemas planteados. Centrándonos en las características de las nuevas fuentes de datos, es necesario resaltar esas conocidas como fuentes de flujos de datos, en los que el ratio de generación no permite su almacenamiento, así que es necesario realizar análisis de datos en tiempo real. Además, y debido a la proliferación de fuentes de datos, conceptos como la fusión de información están adquiriendo mucha importancia. Esta fusión de la información a nivel de modelo, fusión de modelos, podría liderar el descubrimiento de nuevo conocimiento derivado de la interacción entre la información contenida en los modelos. Razones de privacidad, seguridad o volúmenes de datos involucran la aparición de conceptos como 'Edge computing'. En 'Edge computing', el procesamiento se acerca lo máximo posible a la fuente de información. El concepto de aprendizaje federado esta relacionado con un acercamiento al aprendizaje de modelos distribuidos. Es más, hay un interés creciente en conocer porqué una Inteligencia Artificial(AI), o un sistema de Aprendizaje Máquina (ML) realizan cierta decisión. Esto ha guiado al surgimiento de la Inteligencia Artificial eXplicable (XAI)/ aprendizaje máquina eXplicable (XML), un campo de investigación que apunta a hacer más entendible a los humanos los resultados y el funcionamiento de sistemas IA/ML.

    Este proyecto apunta a desarrollar nuevos modelos de Ciencia de Datos basados en Inteligencia Computacional y 'Deep Learning' para afrontar nuevos problemas emergentes de extracción de conocimiento en problemas complejos. Esto se afrontará desde una doble perspectiva:

    a) Investigación de nuevos métodos de obtención de modelos precisos en el contexto del 'Big Data' usando flujos de datos, procesado online y fusión de modelos para clasificación, predicción de series temporales, aprendizaje multietiqueta, e inducción supervisada de reglas descriptivas.

    b) Desarrollo de modelos transparentes de Ciencia de Datos para IA explicables.

    El desarrollo dentro de este proyecto será acompañado de librerías software en R, Scala, Spark o Flink, que estarán disponibles para la comunidad científica como código abierto. Abordaremos la aplicación de técnicas desarrolladas en problemas reales, en el campo de la medicina y la ecología. Para este fin, realizaremos un trabajo interdisciplinar en colaboración con investigadores médicos del complejo hospitalario de Jaén y con doctores en biología de la Junta de Andalucía y WWF-ADENA.
SIMIDAT