PAN 2009 - Detección de plagio

Campaña

Nombre de la campaña

PAN 2009 @ CLEF

Nombre de la tarea

Plagiarism detection

Tipo de tarea

Evaluación de sistemas de clasificación automática: plagio vs. no plagio

Descripción de la tarea

Dado un conjunto de documentos (en inglés) y unos documentos fuentes (en inglés, español y alemán), la tarea consiste en encontrar todos los fragmentos de textos que han sido plagiados y los correspondientes fragmentos en los documentos fuente. Dos han sido las subtareas: detección externa de plagio (a partir de los documentos fuente) y detección intrínseca de plagio (analizando el cambio de estilo en el documento sospechoso). 

Categoría de la tarea

Procesamiento del lenguaje natural, traducción automática (plagio monolingüe y translingüe)

Fecha evento / edición

2009 - https://pan.webis.de/sepln09/pan09-web/plagiarism-detection.html

Organizadores
  • Martin Potthast, Benno Stein, Andreas Eiselt - Bauhaus-Universität Weimar, Alemania
  • Alberto Barrón-Cedeño, Paolo Rosso – Universitat Politècnica de València, España
Grupos destinatarios

Abierto a quien quiera participar: han participado grupos de investigación académicos y de institutos de investigación, así como del detector de plagio Ferret.

Elegibilidad

Cualquiera puede participar (grupos de investigación académicos, de la industria o investigadores individuales). Hay un control de calidad en los working notes presentados (peer review) 

Calendario
  • 28/03/2009: Training set
  • 21/05/2009: Test set
  • 11/06/2009: Envío de softwares
  • 15/06/2009: Notificación de resultados
  • 01/07/2009: Envío de artículos
  • 21/07/2009: Envío notificación
  • 15/08/2009: Envío versión camera ready
  • 10/09/2009: Workshop PAN (SEPLN)
Número de participantes

13 equipos (~30 personas)

Número de participantes de España

1

Dominio

El corpus está compuesto por 22.874 libros del proyecto Gutenberg. 

Idiomas

lnglés (documentos fuente en inglés, español y alemán)

Datos

Datos de entrenamiento
  • Documentos en inglés que pueden contener fragmentos de textos plagiados y documentos fuente en inglés, así como en español y alemán, desde los cuales fragmentos de textos pueden haber sido copiado, parafraseado y traducido al inglés.
  • Distribuido como XML
Derecho de redistribución de datos

Sólo para investigación

Enlace a datasets

https://pan.webis.de/data.html

Resultados

Métrica de evaluación

Plagdet: combinación entre precisión y recall (a nivel de caracteres) y granularidad.

Rendimiento
  • Subtarea de detección externa de plagio: 0.80
  • Subtarea de detección intrínseca de plagio: 0.25
Disponibilidad del código

-

Tipo de ejecución

Local

Número total de resultados enviados

14 (un equipo ha participado en las dos subtareas)

Resultados con los rankings

Martin Potthast, Benno Stein, Andreas Eiselt, Alberto Barrón-Cedeño, and Paolo Rosso. Overview of the 1st International Competition on Plagiarism Detection. In Benno Stein et al, editors, SEPLN 09 Workshop on Uncovering Plagiarism, Authorship, and Social Software Misuse (PAN 09), pp. 1-9, September 2009. CEUR-WS.org

http://ceur-ws.org/Vol-502/paper1.pdf [PDF]

Volumen de publicación

vol. 502, CEUR-WS.org 

Gestión web de usuarios

Atención a participantes

Email: pan@webis.de

Google Groups