PAN 2011 - Detección de plagio

Campaña



Nombre de la campaña	PAN 2011 @ CLEF
Nombre de la tarea	Plagiarism detection
Tipo de tarea	Evaluación de sistemas de clasificación automática: plagio vs. no plagio
Descripción de la tarea	Dado un conjunto de documentos (en inglés) y unos documentos fuentes (en inglés, español y alemán), la tarea consiste en encontrar todos los fragmentos de textos que han sido plagiados y los correspondientes fragmentos en los documentos fuente. Dos han sido las subtareas: detección externa de plagio (a partir de los documentos fuente) y detección intrínseca de plagio (analizando el cambio de estilo en el documento sospechoso).
Categoría de la tarea	Procesamiento del lenguaje natural, traducción automática (plagio monolingüe y translingüe)
Fecha evento / edición	2011
Organizadores	Martin Potthast, Benno Stein, Andreas Eiselt - Bauhaus-Universität Weimar, Alemania Alberto Barrón-Cedeño, Paolo Rosso – Universitat Politècnica de València, España
Grupos destinatarios	Abierto a quien quiera participar: han participado grupos de investigación académicos y de institutos de investigación, así como del detector de plagio Ferret.
Elegibilidad	Cualquiera puede participar (grupos de investigación académicos, de la industria o investigadores individuales). Hay un control de calidad en los working notes presentados (peer review)
Calendario	15/03/2011: Training set 16/05/2011: Test set 08/06/2011: Envío de softwares 15/06/2011: Notificación de resultados 17/07/2011: Envío de artículos 29/07/2011: Envío notificación 14/08/2011: Envío versión camera ready 19-22/09/2011: Conferencia
Número de participantes	11 equipos (~33 personas)
Número de participantes de España	1 equipos (~2 personas)
Dominio	El corpus está compuesto por 26.939 documentos y 61. 064 casos de plagio (libros del proyecto Gutenberg). En comparación a la tarea de los años anteriores, el corpus contiene más casos de plagio con paráfrasis.
Idiomas	lnglés (documentos fuente en inglés, español y alemán)

- Nombre de la campaña
- PAN 2011 @ CLEF
- Nombre de la tarea
- Plagiarism detection
- Tipo de tarea
- Evaluación de sistemas de clasificación automática: plagio vs. no plagio
- Descripción de la tarea
- Dado un conjunto de documentos (en inglés) y unos documentos fuentes (en inglés, español y alemán), la tarea consiste en encontrar todos los fragmentos de textos que han sido plagiados y los correspondientes fragmentos en los documentos fuente. Dos han sido las subtareas: detección externa de plagio (a partir de los documentos fuente) y detección intrínseca de plagio (analizando el cambio de estilo en el documento sospechoso).
- Categoría de la tarea
- Procesamiento del lenguaje natural, traducción automática (plagio monolingüe y translingüe)
- Fecha evento / edición
- 2011
- Organizadores
- - Martin Potthast, Benno Stein, Andreas Eiselt - Bauhaus-Universität Weimar, Alemania
  - Alberto Barrón-Cedeño, Paolo Rosso – Universitat Politècnica de València, España
- Grupos destinatarios
- Abierto a quien quiera participar: han participado grupos de investigación académicos y de institutos de investigación, así como del detector de plagio Ferret.
- Elegibilidad
- Cualquiera puede participar (grupos de investigación académicos, de la industria o investigadores individuales). Hay un control de calidad en los working notes presentados (peer review)
- Calendario
- - 15/03/2011: Training set
  - 16/05/2011: Test set
  - 08/06/2011: Envío de softwares
  - 15/06/2011: Notificación de resultados
  - 17/07/2011: Envío de artículos
  - 29/07/2011: Envío notificación
  - 14/08/2011: Envío versión camera ready
  - 19-22/09/2011: Conferencia
- Número de participantes
- 11 equipos (~33 personas)
- Número de participantes de España
- 1 equipos (~2 personas)
- Dominio
- El corpus está compuesto por 26.939 documentos y 61. 064 casos de plagio (libros del proyecto Gutenberg). En comparación a la tarea de los años anteriores, el corpus contiene más casos de plagio con paráfrasis.
- Idiomas
- lnglés (documentos fuente en inglés, español y alemán)

Datos



Datos de entrenamiento	Documentos en inglés que pueden contener fragmentos de textos plagiados y documentos fuente en inglés, así como en español y alemán, desde los cuales fragmentos de textos pueden haber sido copiado, parafraseado y traducido al inglés. Distribuido como XML
Derecho de redistribución de datos	Sólo para investigación
Enlace a datasets	https://pan.webis.de/data.html

- Datos de entrenamiento
- - Documentos en inglés que pueden contener fragmentos de textos plagiados y documentos fuente en inglés, así como en español y alemán, desde los cuales fragmentos de textos pueden haber sido copiado, parafraseado y traducido al inglés.
  - Distribuido como XML
- Derecho de redistribución de datos
- Sólo para investigación
- Enlace a datasets
- https://pan.webis.de/data.html

Resultados



Métrica de evaluación	Plagdet: combinación entre precisión y recall (a nivel de caracteres) y granularidad.
Rendimiento	Subtarea de detección externa de plagio: 0.56 Subtarea de detección intrínseca de plagio: 0.32
Disponibilidad del código	-
Tipo de ejecución	Local
Número total de resultados enviados	14 (miembros de tres equipos han participado en las dos subtareas)
Resultados con los rankings	Martin Potthast, Andreas Eiselt, Alberto Barrón-Cedeño, Benno Stein, and Paolo Rosso. Overview of the 3rd International Competition on Plagiarism Detection. In Vivien Petras, Pamela Forner, and Paul D. Clough, editors, Working Notes Papers of the CLEF 2011 Evaluation Labs, September 2011 http://ceur-ws.org/Vol-1177/CLEF2011wn-PAN-PotthastEt2011a.pdf [PDF ]
Volumen de publicación	vol. 1177, CEUR-WS.org (441 citas a 15/10/2018)
Gestión web de usuarios	Sí
Atención a participantes	Email: pan@webis.de Google Groups

- Métrica de evaluación
- Plagdet: combinación entre precisión y recall (a nivel de caracteres) y granularidad.
- Rendimiento
- - Subtarea de detección externa de plagio: 0.56
  - Subtarea de detección intrínseca de plagio: 0.32
- Disponibilidad del código
- -
- Tipo de ejecución
- Local
- Número total de resultados enviados
- 14 (miembros de tres equipos han participado en las dos subtareas)
- Resultados con los rankings
- Martin Potthast, Andreas Eiselt, Alberto Barrón-Cedeño, Benno Stein, and Paolo Rosso. Overview of the 3rd International Competition on Plagiarism Detection. In Vivien Petras, Pamela Forner, and Paul D. Clough, editors, Working Notes Papers of the CLEF 2011 Evaluation Labs, September 2011
  
  http://ceur-ws.org/Vol-1177/CLEF2011wn-PAN-PotthastEt2011a.pdf [PDF ]
- Volumen de publicación
- vol. 1177, CEUR-WS.org (441 citas a 15/10/2018)
- Gestión web de usuarios
- Sí
- Atención a participantes
- Email: pan@webis.de
  
  Google Groups