La herramienta Corpus Viewer desarrollada en el Plan TL finalista en los premios CNIS 2019

15/03/2019

La herramienta Corpus Viewer para apoyo en el diseño de políticas públicas, la evaluación de ayudas y la detección de fraude ha sido nominada finalista en los proyectos innovadores CNIS 2019.

Ante el reto de la transformación a una Administración Abierta, Digital, Inteligente y Social, iniciativas como el Congreso Nacional de Innovación y Servicios Públicos (CNIS) contribuyen a descubrir las claves para el cambio y las mejores experiencias en innovación dentro de las Administraciones Públicas españolas. En este foro se pone en valor el trabajo realizado por muchas administraciones y responsables públicos tanto de la Administración General del Estado como de Comunidades Autónomas y Entidades Locales, facilitando a otras administraciones la identificación de proyectos y la mejor planificación de actuaciones futuras, tanto para el cumplimiento de las exigencias de las normas, como para la mejor y más eficiente gestión de los proyectos y servicios que gestionan.

En esta IX edición del CNIS, la herramienta Corpus Viewer, desarrollada por la Secretaría de Estado para el Avance Digital en el proyecto INTELCOMP del Plan de impulso de Tecnologías del Lenguaje, ha sido nominada finalista a los premios CNIS 2019.

La herramienta Corpus Viewer (Visor de corpus documentales), haciendo uso de técnicas de procesamiento de lenguaje natural, traducción automática y aprendizaje automático, permite el análisis de documentos de información no estructurada compuesta de extensos conjuntos de documentos: patentes, publicaciones científicas, proyectos de investigación y desarrollo, etc. El resultado de la herramienta ofrece una serie de funcionalidades para diferentes tipos de agentes: apoyo en diseño de políticas públicas, evaluación de ayudas y detección de fraude. La herramienta ha comenzado a usarse en la Secretaría de Estado para el Avance Digital y en la Secretaría de Estado de Universidades, Investigación, Desarrollo e Innovación.

Evolución temáticas Corpus Viewer

Ilustración 1. Evolución temporal de temáticas en Corpus Viewer

Las tecnologías del lenguaje combinadas con técnicas de aprendizaje máquina y representación gráfica, hacen posible el tratamiento inteligente de grandes volúmenes de información no estructurada, permitiendo obtener información que de otra manera sería inviable. Entre las técnicas empleadas en esta herramienta, se encuentran:

  • Procesamiento de lenguaje natural (inglés, español). Tokenizado, PoS, desambiguación, wikificación). WordEmbeddings.
  • Traducción automática (ES-EN)
  • Modelado de tópicos (estáticos: LDA, CTM, dinámicos: DTM y desarrollo propio, jerárquicos: hLDA, rLDA desarrollo propio)
  • Búsqueda textual (LDA+Jensen-Shannon, BM25, wordEmbeddings)
  • Análisis de grafos; modularidades, distancias entre clusters, centralidad
  • Escalabilidad elástica completa del sistema empleando una arquitectura orientada a microservicios (Rancher, Kubernets).
  • Despliegue automatizado con Ansible. Todos los componentes se ejecutan en contenedores tipo Dockers.

Análisis de grafos

Ilustración 2. Análisis de grafos