Datos reutilizables como recursos lingüísticos

Resumen del Estudio

La Ley sobre la Reutilización de Información del Sector Público (RISP) 18/2015, de 9 de julio de 2015 se publicó modificando la Ley anterior 37/2007, de 16 de noviembre para incorporar al ordenamiento jurídico español la Directiva europea 2013/37/UE que tiene la misma finalidad, i.e. potenciar la reutilización de la información del sector público. Como se indica en su preámbulo, con esta ley se persigue facilitar la creación de productos y servicios de información basados en documentos del sector público, garantizar la eficacia en el uso transfronterizo de documentos del sector público por empresas privadas y ciudadanos y promover la libre circulación de información y la comunicación, garantizando el respeto a la seguridad jurídica, la protección de los datos personales, así como la propiedad intelectual e industrial. De acuerdo al texto, y tal y como reza el Artículo 3.1, todos los documentos elaborados o custodiados por las Administraciones y organismos del sector público, salvo los expresamente mencionados en el Artículo 3.3, pueden ser por defecto objeto de reutilización de acuerdo a los requisitos establecidos.

En consecuencia, las enormes cantidades de documentos que acumulan las organizaciones, y especialmente la información textual en formato electrónico, se constituyen en fuente de recursos para la industria del procesamiento del lenguaje natural y la traducción automática. Por ello, desde una perspectiva de TL y con el fin de dar uso a esta materia prima, se precisa identificar, de toda la ingente cantidad de recursos existente, los documentos más valiosos para el fin perseguido, analizar qué documentos se seleccionan y para qué sirven. Además, es necesario describir el proceso de depuración para convertir esta materia prima en recursos lingüísticos adecuadamente procesados y anotados.

El objeto de este estudio ha sido identificar y censar documentos susceptibles de reutilización como recursos lingüísticos, publicados en los sitios web de organismos de la Administración General del Estado (AGE), de las Comunidades Autónomas (CCAA), Entidades Locales (EELL) y universidades públicas españolas y, a partir de los resultados, elaborar una propuesta de plan de acción que establezca prioridades y medidas para la conversión de los documentos identificados en recursos lingüísticos. Con este estudio se pretende impulsar la reutilización de información del sector público en el ámbito de las TL y los datos abiertos de interés lingüístico.

Durante el estudio se ha abordado un censado de recursos de administraciones públicas susceptibles de ser convertidos en RL y se ha elaborado una propuesta de plan de acción para su conversión en RL incluyendo sugerencias sobre nuevos documentos a disponer en los portales de datos abiertos. Para la elaboración y evaluación del censo de recursos, se generó una ficha técnica para la recogida de información y se elaboró una ficha específica para la evaluación de la madurez, teniendo en cuenta factores técnicos requeridos por los RL usados en PLN y aspectos legales para su reutilización. Se ha elaborado una metodología específica para el censado y evaluación de la madurez de los datos y se han generado dos listados, uno preliminar compuesto por 101 recursos, del que se han seleccionado 24 para su análisis detallado y evaluación. El informe también incluye un repaso de estudios similares en otros países y concluye con unas recomendaciones genéricas, así como estrategias concretas para los recursos seleccionados.

Los objetivos finales primordiales de esta investigación se pueden resumir en:

  • Ofrecer un modelo de búsqueda y una serie de ejemplos de recursos de las diferentes administraciones públicas que puedan ser convertidos en RL.
  • Extraer una propuesta de plan de acción que sirva para múltiples documentos de las administraciones, de forma que puedan convertirse en potenciales RL, a partir del análisis de los recursos censados en el proyecto y de sus diferentes grados de madurez.

Autores

El presente estudio ha sido desarrollado por los catedráticos:

  • Antonio Moreno, Fundación UAM
  • Doroteo Torre, Fundación UAM
  • Ana Valverde, Fundación UAM
  • Leonardo Campillos, Fundación UAM

Estudio completo

Datos reutilizables como recursos lingüísticos [PDF] [2.08 MB]

Ficha resumen: Datos reutilizables como recursos lingüísticos [PDF] [245.04 kB]