El desarrollo de Internet y, en general de las tecnologías de la información y las comunicaciones (TIC), genera un volumen abrumador de información textual en soporte electrónico que crece vertiginosamente. Este volumen de información ya no es abordable humanamente, pero la necesidad de aprovecharla es imperiosa. Por eso, la explotación automática de esta información es urgente y necesaria.
Las Tecnologías del Lenguaje son un conjunto diverso de tecnologías que van jalonando el camino hacia una compresión automática cada vez más profunda del lenguaje humano. Engloban tanto las tecnologías de procesamiento de lenguaje natural (PLN) como de traducción automática. Son las tecnologías que permiten explotar automáticamente ese volumen de información que resulta ya inabordable.
En consecuencia, las Tecnologías del Lenguaje generan un sector industrial emergente, innovador y transversal.
Las organizaciones acumulan enormes cantidades de información textual en formato electrónico que se pueden convertir en combustible para la industria de las tecnologías del lenguaje.
Hay que reparar en que el valor de estos textos tiene dos vertientes:
- Por un lado, está su valor directo como materia prima informativa para generar información relevante mediante tecnologías del lenguaje.
- Pero, no menos importante, también tienen una enorme utilidad para crear y entrenar la propia tecnología del lenguaje (Un buen ejemplo son las memorias de traducción de la Dirección General de Traducción de la Comisión Europea, que son el conjunto de datos más bajado del portal de datos abiertos de la UE).
Pero se puede ser más ambicioso aún. La confluencia de Datos Abiertos y Tecnologías del Lenguaje puede ser el germen de una nueva revolución del conocimiento, de una nueva Ilustración.
Pero para lograr sus potenciales beneficios, hay que resolver los retos sociales, económicos, legales y técnicos específicos que plantea.