PAN 2017 - Perfilado de autores

Campaña



Nombre de la campaña	PAN 2017 @ CLEF
Nombre de la tarea	Author Profiling: Gender and Language Variety Identification in Twitter.
Tipo de tarea	Evaluación de sistemas de clasificación automática (sexo y variedad del lenguaje)
Descripción de la tarea	Dado un texto escrito en Twitter, la tarea consiste en identificar de manera automática el sexo de su autor, y la variedad dialectal del idioma que habla.
Categoría de la tarea	Procesamiento del lenguaje natural
Fecha evento / edición	2016- https://pan.webis.de/clef17/pan17-web/author-profiling.html
Organizadores	Francisco Rangel - Autoritas, España Paolo Rosso - Universitat Politècnica de València, España Martin Potthast - Bauhaus-Universität Weimar, Alemania Benno Stein - Bauhaus-Universität Weimar, Alemania
Grupos destinatarios	Abierto a quien quiera participar: han participado grupos de investigación académicos y de la industria
Elegibilidad	Cualquiera puede participar (grupos de investigación académicos, de la industria o investigadores individuales). Hay un control de calidad en los working notes presentados (peer review)
Calendario	11-14/09/2017: Conferencia 15/03/2017: Early birds 15/04/2017: Envío de softwares 15/05/2017: Notificación de resultados 25/06/2017: Envío de artículos 15/07/2017: Registro a la conferencia
Número de participantes	22 equipos (~70personas)
Número de participantes de España	11 personas en 1 equipo
Dominio	Twitter, sin acotar a un dominio concreto.
Idiomas	Árabe (4 variedades) Inglés (6 variedades) Español (7 variedades) Portugués (2 variedades)

- Nombre de la campaña
- PAN 2017 @ CLEF
- Nombre de la tarea
- Author Profiling: Gender and Language Variety Identification in Twitter.
- Tipo de tarea
- Evaluación de sistemas de clasificación automática (sexo y variedad del lenguaje)
- Descripción de la tarea
- Dado un texto escrito en Twitter, la tarea consiste en identificar de manera automática el sexo de su autor, y la variedad dialectal del idioma que habla.
- Categoría de la tarea
- Procesamiento del lenguaje natural
- Fecha evento / edición
- 2016- https://pan.webis.de/clef17/pan17-web/author-profiling.html
- Organizadores
- - Francisco Rangel - Autoritas, España
  - Paolo Rosso - Universitat Politècnica de València, España
  - Martin Potthast - Bauhaus-Universität Weimar, Alemania
  - Benno Stein - Bauhaus-Universität Weimar, Alemania
- Grupos destinatarios
- Abierto a quien quiera participar: han participado grupos de investigación académicos y de la industria
- Elegibilidad
- Cualquiera puede participar (grupos de investigación académicos, de la industria o investigadores individuales). Hay un control de calidad en los working notes presentados (peer review)
- Calendario
- - 11-14/09/2017: Conferencia
  - 15/03/2017: Early birds
  - 15/04/2017: Envío de softwares
  - 15/05/2017: Notificación de resultados
  - 25/06/2017: Envío de artículos
  - 15/07/2017: Registro a la conferencia
- Número de participantes
- 22 equipos (~70personas)
- Número de participantes de España
- 11 personas en 1 equipo
- Dominio
- Twitter, sin acotar a un dominio concreto.
- Idiomas
- - Árabe (4 variedades)
  - Inglés (6 variedades)
  - Español (7 variedades)
  - Portugués (2 variedades)

Datos

Datos de entrenamiento

										Reviews
Autores en árabe										2400
Autores en inglés										3600
Autores en español										4200
Autores en portugués										1200
Distribuido como XML

Derecho de redistribución de datos

Sólo para investigación

Enlace a datasets

- Datos de entrenamiento
- Reviews
  
  Autores en árabe 2400
  Autores en inglés 3600
  Autores en español 4200
  Autores en portugués 1200
  Distribuido como XML
- Derecho de redistribución de datos
- Sólo para investigación
- Enlace a datasets
- - https://www.uni-weimar.de/medien/webis/corpora/corpus-pan-labs-09-today/pan-17/pan17-data/pan17-author-profiling-training-dataset-2017-03-10-password-protected.zip [ZIP]
  - https://s3.amazonaws.com/autoritas.pan/pan17-author-profiling-test-2017-03-16.zip [ZIP]

Resultados

Métrica de evaluación

Accuracy

Rendimiento

Twitter

Sexo

Árabe: 80,31%

Inglés: 82,33%

Español: 83,21%

Portugués: 87,00%

Variedad

Árabe: 83,13%

Inglés: 89,88%

Español: 96,21%

Portugués: 98,38%

Combinado

Árabe: 68,31%

Inglés: 74,29%

Español: 80,36%

Portugués: 85,75%

Disponibilidad del código

En algunos casos los participantes proporcionaron su código fuente vía GitHub (especificado en sus working notes)

Tipo de ejecución

Remoto - A los participantes se les facilita el acceso a una máquina virtual para la evaluación del entorno TIRA

Número total de resultados enviados

Resultados con los rankings

Rangel F., Rosso P., Potthast M., Stein B. (2017). Overview of the 5th Author Profiling Task at PAN 2017: Gender and Language Variety Identification in Twitter. In: Cappellato L., Ferro N., Goeuriot L, Mandl T. (Eds.) CLEF 2017 Labs and Workshops, Notebook Papers. CEUR Workshop Proceedings. CEUR-WS.org, vol. 1866.

http://ceur-ws.org/Vol-1866/invited_paper_11.pdf [PDF]

Volumen de publicación

vol. 1866, CEUR-WS.org (66 citas a 15/10/2018)

Gestión web de usuarios

Sí

Atención a participantes

Email: pan@webis.de

Google Groups

- Métrica de evaluación
- Accuracy

Rendimiento