PAN 2010 - Detección de plagio

Campaña

Nombre de la campaña

PAN 2010 @ CLEF

Nombre de la tarea

Plagiarism detection

Tipo de tarea

Evaluación de sistemas de clasificación automática: plagio vs. no plagio

Descripción de la tarea

Dado un conjunto de documentos (en inglés) y unos documentos fuentes (en inglés, español y alemán), la tarea consiste en encontrar todos los fragmentos de textos que han sido plagiados y los correspondientes fragmentos en los documentos fuente. En la tarea se han considerado casos de detección externa de plagio así como intrínseca.

Categoría de la tarea

Procesamiento del lenguaje natural, traducción automática (plagio monolingüe y translingüe)

Fecha evento / edición

2010 - https://pan.webis.de/clef10/pan10-web/plagiarism-detection.html

Organizadores
  • Martin Potthast, Benno Stein, Andreas Eiselt - Bauhaus-Universität Weimar, Alemania
  • Alberto Barrón-Cedeño, Paolo Rosso – Universitat Politècnica de València, España
Grupos destinatarios

Abierto a quien quiera participar: han participado grupos de investigación académicos y de institutos de investigación, así como del detector de plagio Ferret.

Elegibilidad

Cualquiera puede participar (grupos de investigación académicos, de la industria o investigadores individuales). Hay un control de calidad en los working notes presentados (peer review) 

Calendario
  • 14/03/2010: Training set
  • 15/05/2010: Fin de inscripción
  • 16/05/2010: Test set
  • 23/06/2010: Envío de softwares
  • 30/06/2010: Notificación de resultados
  • 15/07/2010: Envío de artículos
  • 02/08/2010: Envío notificación
  • 15/08/2010: Envío versión cámera ready
  • 20-23/09/2010: Conference
Número de participantes

18 equipos (~50 personas)

Número de participantes de España

4 equipos (~12 personas)

Dominio

El corpus está compuesto por 27.073 documentos y 68.558 casos de plagio (libros del proyecto Gutenberg). 

Idiomas

lnglés (documentos fuente en inglés, español y alemán)

Datos

Datos de entrenamiento
  • Documentos en inglés que pueden contener fragmentos de textos plagiados y documentos fuente en inglés, así como en español y alemán, desde los cuales fragmentos de textos pueden haber sido copiado, parafraseado y traducido al inglés.
  • Distribuido como XML
Derecho de redistribución de datos

Sólo para investigación

Enlace a datasets

https://pan.webis.de/data.html

Resultados

Mejor resultado: 0.80
Métrica de evaluación

Plagdet: combinación entre precisión y recall (a nivel de caracteres) y granularidad.

Rendimiento

Mejor resultado: 0.80

Disponibilidad del código

-

Tipo de ejecución

Local

Número total de resultados enviados

18

Resultados

Potthast M., Barrón-Cedeño A., Eiselt A., Stein B., Rosso P. Overview of the 2nd International Competition on Plagiarism Detection. In: Braschler M., Harman D., and Pianta E.(Eds.), Notebook Papers of CLEF 2010 LABs and Workshops, CLEF-2010, Padua, Italy, September 22-23

http://ceur-ws.org/Vol-1176/CLEF2010wn-PAN-PotthastEt2010a.pdf [PDF ]

Volumen de publicación

vol. 1176, CEUR-WS.org 

Gestión web de usuarios

Atención a participantes

Email: pan@webis.de

Google Groups