Algoritmos y piloto para clasificación automática
Propuesta de algoritmos aplicados a clasificación mediante el empleo de técnicas de aprendizaje automático.
Desarrolladores
El trabajo ha sido realizado por el Instituto de Ingeniería del Conocimiento (IIC) de la Universidad Autónoma de Madrid (UAM).
Resumen
Se ha aplicado la clasificación a tres sectores:
Empresas del sector TIC
El conocimiento profundo y actualizado del sector TIC, y su prospectiva, son imprescindibles para elaborar políticas eficaces para el sector TIC, incluidas las actuaciones de impulso e internacionalización. Sin embargo, varios factores dificultan este conocimiento en este momento:
- El Directorio Central de Empresas (DIRCE), que publica el INE, reflejan la situación del sector con 2 años o más de retraso.
- En el DIRCE, su clasificación según la Clasificación Nacional de Actividades Económicas (CNAE) refleja normalmente la situación de la empresa en el momento de su alta en el registro mercantil y no suele tener en cuenta la evolución de la actividad de la empresa (salvo en caso de contratación pública, que obliga a mantener estos datos actualizados).
- En ocasiones, incluso, la clasificación inicial es fraudulenta con el fin de reducir las cuotas del Impuesto de Actividades Económicas.
- El sector TIC es un sector muy dinámico que varía rápidamente en el tiempo, siendo frecuentes los cambios de actividad.
Las técnicas de aprendizaje automático permiten emplear la abundante información disponible en Internet (Internet as Data source, IaD) para clasificar la actividad de las empresas y disponer de una visión actualizada del sector TIC.
Empresas de comercio electrónico
El comercio electrónico es un sector de actividad pujante que está desplazando a otras formas de comercio y donde competencia internacional es más intensa. Es, por tanto, un sector de importancia económica estratégica en el que, de nuevo, su conocimiento profundo y actualizado, y su prospectiva son imprescindibles para elaborar políticas eficaces para su desarrollo, incluidas las actuaciones de impulso e internacionalización. Sin embargo, de nuevo, varios factores dificultan este conocimiento en este momento:
- Para su conocimiento actualmente solo se dispone de la Encuesta sobre el uso de TIC y comercio electrónico en las empresas (ETICCE) del INE que, de nuevo, reflejan la situación del sector con 2 años de retraso.
- Esta encuesta es costosa y no muy detallada.
- Hay casos de falsas empresas de comercio electrónico que afirman realizar este tipo de actividades para recibir subvenciones.
De nuevo, las técnicas de aprendizaje automático permiten analizar las propias páginas web de las empresas españolas analizando, identificando y clasificando su actividad de comercio electrónico real con mayor precisión y cobertura, y en el momento actual.
Los resultados alcanzados en un proyecto piloto de detección automática de comercio electrónico avalan la solvencia de estas técnicas para resolver la necesidad de tener un profundo y actualizado de comercio electrónico en España.
Patentes
Un conocimiento detallado de las patentes permite conocer la evolución de la innovación y el emprendimiento, las tendencias industriales y su prospectiva. También permite comparar con las tendencias de otros países para detectar fortalezas y debilidades del sector TIC nacional.
Hay dos tareas específicas donde el aprendizaje automático es de utilidad inmediata:
- Clasificación automática de solicitudes de patente: un primer paso es clasificar correctamente la patente. Para ello se utiliza una extensa taxonomía de clasificación, el International Patent Classification (IPC), desarrollado y mantenido por la World Intellectual Property Organization (WIPO). Las técnicas de aprendizaje automático pueden ofrecer al evaluador un primer conjunto de etiquetas de clasificación provisional de la solicitud con diversos grados de probabilidad que incrementarían la productividad del trabajo de los evaluadores.
- Identificación automática de patentes similares a una solicitud: estas técnicas también permiten buscar en el corpus de patentes aquellas que más se asemejen a la candidata para facilitar al evaluador el cotejo con las mismas y la evaluación de los requisitos de novedad para poder otorgar la patente.
Las capacidades de estas herramientas han sido demostradas en el proyecto piloto.
Los entregables del proyecto contendrán la descripción, análisis y justificación teórica de los algoritmos propuestos, e implementación práctica de los algoritmos (pseudocódigo del algoritmo, código compilable y ejecutables de su implementación práctica, módulos externos, manuales de instalación y de uso de los mismos, etc.)
El código fuente se publicará próximamente en la plataforma Github.