La plataforma Corpus Viewer se basa en técnicas de procesamiento de lenguaje natural (PLN), aprendizaje automático (ML) y traducción automática (MT) para analizar metadatos estructurados y datos textuales no estructurados en grandes corpus de documentos textuales. La plataforma permite a los responsables de la toma de decisiones e implementadores de políticas la posibilidad de analizar el espacio de información de I+D+i (principalmente patentes, publicaciones científicas y ayudas públicas) para la implementación de políticas basadas en evidencia y conocimiento. Se basa, entre otras técnicas, en el modelado de tópicos y el análisis de grafos.
El desarrollo de Corpus Viewer comenzó en 2016 y sigue avanzando gracias a la colaboración de varios grupos de investigación universitarios y empresas. Corpus Viewer en su versión 1.0 es actualmente utilizado por tres administraciones públicas: SEAD (Ministerio de Economía), la Fundación Española para la Ciencia y la Tecnología (FECYT) y la Secretaria de Estado de Universidades e Investigación, Desarrollo e Innovación (SEUIDI) (Ministerio de Ciencia).
Aunque Corpus Viewer es una plataforma genérica que puede ser explotada con prácticamente cualquier colección de documentos de texto, el despliegue actual de la plataforma aloja principalmente corpus relacionados con el I+D.
Estas fuentes de datos se procesan para ayudar en la definición e implementación de políticas públicas de I+D+i a través de un conjunto de funcionalidades que permiten:
- comparar las áreas de conocimiento y financiación de I+D+i en diferentes regiones geográficas,
- dentificar ventajas competitivas entre países, regiones, organizaciones,
- identificar áreas de conocimiento de I+D+i, así como su emergencia, evolución e incluso hibridación con otras áreas de conocimiento (proporciona también agregación de metadatos y visualización de tablero de instrumentos de tipo BI),
- perfilado de agentes de I+D (organizaciones, investigadores y empresas) y
- ayuda en la evaluación del impacto de las políticas públicas mediante el seguimiento de los resultados de las subvenciones, resultados a corto y largo plazo.