Ir al contenido

PAN 2017 - Perfilado de autores

Compartir

Campaña

Nombre de la campaña	PAN 2017 @ CLEF
Nombre de la tarea	Author Profiling: Gender and Language Variety Identification in Twitter.
Tipo de tarea	Evaluación de sistemas de clasificación automática (sexo y variedad del lenguaje)
Descripción de la tarea	Dado un texto escrito en Twitter, la tarea consiste en identificar de manera automática el sexo de su autor, y la variedad dialectal del idioma que habla.
Categoría de la tarea	Procesamiento del lenguaje natural
Fecha evento / edición	2016- https://pan.webis.de/clef17/pan17-web/author-profiling.html
Organizadores	Francisco Rangel - Autoritas, España Paolo Rosso - Universitat Politècnica de València, España Martin Potthast - Bauhaus-Universität Weimar, Alemania Benno Stein - Bauhaus-Universität Weimar, Alemania
Grupos destinatarios	Abierto a quien quiera participar: han participado grupos de investigación académicos y de la industria
Elegibilidad	Cualquiera puede participar (grupos de investigación académicos, de la industria o investigadores individuales). Hay un control de calidad en los working notes presentados (peer review)
Calendario	11-14/09/2017: Conferencia 15/03/2017: Early birds 15/04/2017: Envío de softwares 15/05/2017: Notificación de resultados 25/06/2017: Envío de artículos 15/07/2017: Registro a la conferencia
Número de participantes	22 equipos (~70 personas)
Número de participantes de España	11 personas en 1equipos
Dominio	Twitter, sin acotar a un dominio concreto.
Idiomas	Árabe (4 variedades) Inglés (6 variedades) Español (7 variedades) Portugués (2 variedades)

Datos

Datos de entrenamiento											Reviews
	Autores en árabe										2400
	Autores en inglés										3600
	Autores en español										4200
	Autores en portugués										1200
	Distribuido como XML
Derecho de redistribución de datos	Sólo para investigación
Enlace a datasets	https://www.uni-weimar.de/medien/webis/corpora/corpus-pan-labs-09-today/pan-17/pan17-data/pan17-author-profiling-training-dataset-2017-03-10-password-protected.zip [ZIP] https://s3.amazonaws.com/autoritas.pan/pan17-author-profiling-test-2017-03-16.zip [ZIP]

Resultados

Métrica de evaluación	Accuracy
Rendimiento											Twitter
	Sexo										Árabe: 80,31% Inglés: 82,33% Español: 83,21% Portugués: 87,00%
	Variedad										Árabe: 83,13% Inglés: 89,88% Español: 96,21% Portugués: 98,38%
	Combinado										Árabe: 68,31% Inglés: 74,29% Español: 80,36% Portugués: 85,75%
Disponibilidad del código	En algunos casos los participantes proporcionaron su código fuente vía GitHub (especificado en sus working notes)
Tipo de ejecución	Remoto - A los participantes se les facilita el acceso a una máquina virtual para la evaluación del entorno TIRA
Número total de resultados enviados	77
Resultados con los rankings	Rangel F., Rosso P., Potthast M., Stein B. (2017). Overview of the 5th Author Profiling Task at PAN 2017: Gender and Language Variety Identification in Twitter. In: Cappellato L., Ferro N., Goeuriot L, Mandl T. (Eds.) CLEF 2017 Labs and Workshops, Notebook Papers. CEUR Workshop Proceedings. CEUR-WS.org, vol. 1866. http://ceur-ws.org/Vol-1866/invited_paper_11.pdf [PDF]
Volumen de publicación	vol. 1866, CEUR-WS.org (66 citas a 15/10/2018)
Gestión web de usuarios	Sí
Atención a participantes	Email: pan@webis.de Google Groups