Linguistic evidence of plagiarism in Spanish journalism

Linguistic evidence of plagiarism in Spanish journalism

The expertise of a forensic linguist is required in legal disputes about possible plagiarism cases. Studies in plagiarism detection have established a maximum threshold of 50% of lexical similarity in independently produced texts. This paper explores the possibility that journalistic articles requir...

Saved in:
Translated title: Evidencias lingüísticas del plagio en el periodismo español
Journal Title: Estudios sobre el Mensaje Periodístico
First author: Sheila Queralt
Other Authors: Montse Marquina Zarauza;
Roser Giménez García
Traslated keyword:
Language: Undetermined
Get full text: http://revistas.ucm.es/index.php/ESMP/article/view/62234
Resource type: Journal Article
Source: Estudios sobre el Mensaje Periodístico; Vol 24, No 2 (Year 2018).
DOI: http://dx.doi.org/10.5209/ESMP.62234
Publisher: Universidad Complutense de Madrid
Usage rights: Reconocimiento (by)
Categories: Social Sciences/Humanities --> Communication
Abstract: The expertise of a forensic linguist is required in legal disputes about possible plagiarism cases. Studies in plagiarism detection have established a maximum threshold of 50% of lexical similarity in independently produced texts. This paper explores the possibility that journalistic articles require a specific similarity threshold since they share informative content (“what”, “who”, “when”, “where”, “how”, and “why”). In order to do this, 4 quantitative linguistic variables are applied to two corpora structured around 10 different topics: a corpus of study comprising 50 articles and a case corpus including 20 texts from a real case. On the basis of the former, thresholds for each variable reflecting the expectable coincidence percentages between independent texts are extracted. These thresholds are then applied to the corpus of the case to determine whether the new thresholds allow for all the plagiarism cases to be detected.
Translated abstract: En disputas legales por posible plagio se requiere la pericia de un lingüista forense. Los estudios en detección de plagio han establecido un umbral máximo del 50% de similitud léxica en textos producidos de forma independiente. En este artículo, se investiga la posibilidad de que los artículos periodísticos requieran un umbral propio puesto que parten de un mismo contenido informativo ("qué", "quién", "cuándo", "dónde", “cómo” y "por qué"). Para ello, se aplican 4 variables lingüísticas cuantitativas a dos corpus estructurados alrededor de 10 temas: un corpus de estudio formado por 50 artículos y un corpus de caso con 20 textos provenientes de un caso real. A partir del primero, se extraen umbrales para cada variable que reflejan los porcentajes de coincidencia esperables entre textos independientes. Estos umbrales se aplican después al corpus del caso para determinar si los nuevos umbrales permiten detectar todos los casos de plagio.