Données

Le Corpus R-MIGR-TWIT

Le Corpus MIGR-TWIT est un corpus diachronique de tweets bilingues, établi dans l’objectif d’étudier l’évolution du discours public de la droite sur l’immigration en Europe au cours de ces 10 dernières années.

Le corpus est organisé en deux composantes : les corpus FR-R-MIGR-TWIT-2011-2022 et UK-R-MIGR-RA-TWIT-2012-2022.

  • Le corpus FR-R-MIGR-TWIT-2011-2022 rassemble tous les tweets contenant au moins une occurrence du lexique dérivé de la racine lexicale –migr– (i.e. immigration(s), migrant(s), immigré(s)), qui ont été postés par 16 figures et partis politiques de la droite et de l’extrême-droite françaises entre 2011 et 2022, comptant un total de 11,761 tweets et 358,491 mots.
  • Le corpus UK-R-MIGR-RA-TWIT-2012-2022 rassemble tous les tweets contenant au moins une occurrence du lexique dérivé de la racine latine “migr” de migrare (s’en aller d’un lieu) en plus des mots-clés “refugee(s)” et “asylum” (asile), qui ont été postés par 12 figures, partis et institutions politiques de la droite et de l’extrême-droite britanniques entre 2012 et 2022, comptant un total de 6,472 tweets et 174,707 mots.

L’ensemble du corpus compte au total 18,233 tweets et 533,198 mots.

Les données ont été automatiquement récupérées à l’aide du Twitter API v2 Academic Research.

Le corpus complet contient deux fichiers CSV (format tabulaire de données) correspondant à chaque sous-corpus. Le corpus complet se présente en deux versions :

  • version1 avec l’identifiant du tweet (data__id) et le texte du tweet (data__text) comme l’entête (les fichiers nommés FR-R-MIGR-TWIT-2011-2022_textonly et UK-R-MIGR-RA-TWIT-2012-2022_textonly, respectivement composés de 12 et 11 fichiers CSV de chaque année) ;
  • version2 avec toutes les métadonnées du tweet comme l’entête, telles que la date de publication (data__created__at), le nom d’utilisateur (author__name), et le nombre de retweets (data__public_metrics__retweet_count), etc., avec deux fichiers nommées FR-R-MIGR-TWIT-2011-2022_meta et UK-R-MIGR-RA-TWIT-2012-2022_meta

Le corpus a été créé par Elena Battaglia, Guido Blandino, Paola Pietrandrea et Sangwan Jeon, avec la collaboration d’Adelina Stojan.

La création du corpus a été financée par l’Université de Lille, Projet d’Internationalisation 2021 – l’Université Franco-italienne / Università Italo Francese – Campus France (Partenariats Hubert Curien) : Italie – PHC Galilée 2018-19, Pays-Bas – PHC Van Gogh 2018-19.

Le corpus est librement accessible via les plateformes Ortolang et Zenodo.

Le corpus L-MIGR-TWIT

Le corpus FR-L-MIGR-TWIT-2011-2022 rassemble tous les tweets contenant au moins une occurrence du lexique dérivé de la racine lexicale –migr– (i.e. immigration(s), migrant(s), immigré(s)), qui ont été postés par 22 figures et partis politiques de la gauche françaises entre 2011 et 2022, comptant un total de 5,636 Tweets et 169,818 mots.

Les données ont été automatiquement récupérées à l’aide du Twitter API v2 Academic Research.

La version téléchargeable du Corpus FR-L-MIGR-TWIT-2011-2022 contient au total 32 fichiers au format CSV (format tabulaire de données). Le corpus se présente en deux versions, simplifiée et complète en matière de métadonnées.

La version simplifiée s’intitule FR-L-MIGR-TWIT-2011-2022.csv, et contient les données suivantes : l’identifiant, le texte, la date de publication et le nom d’utilisateur du Tweet (correspondant respectivement aux quatre éléments de l’en-tête de data__iddata__textdata__created_at, author__username).

La version complète, en plus de ces quatre données de base, contient toutes les métadonnées du Tweet, notamment les nombres de Retweets, de J’aime, de réponses et de Citations, etc. Cette version est disponible sous forme d’un seul fichier qui s’intitule FR-L-MIGR-TWIT-2011-2022_meta.csv

Le corpus a été créé par Sangwan Jeon et Paola Pietrandrea (Université de Lille) dans le cadre du projet OLiNDiNUM, Observatoire LINguistique du DIscours NUMérique, coordonné par Paola Pietrandrea.

La création du corpus a été financée par l’Université de Lille, Projet d’Internationalisation 2021 – l’Université Franco-italienne / Università Italo Francese – Campus France (Partenariats Hubert Curien) : Italie – PHC Galilée 2018-19, Pays-Bas – PHC Van Gogh 2018-19.

Le corpus est librement accessible via les plateformes Ortolang et Zenodo.

Le corpus UK-EU-DEBATE-20-21

Elena Battaglia et Giuditta Caliendo ont travaillé sur le corpus UK-EU-DEBATE-20-21 dans le cadre d’OLiNDiNUM.


Le corpus, recueilli par Elena Battaglia, a été sélectionné en vue d’examiner le débat médiatique post-Brexit entre le Royaume-Uni et l’Union européenne sur la campagne de vaccination COVID-19.  Les données ont été récupérées via l’Application Programming Interface (API) du site du réseau Twitter en utilisant les comptes des principaux acteurs politiques du gouvernement britannique et des institutions de l’Ue sur une période de 14 mois (1er février 2020-31 mars 2021).


Le corpus est accessible au lien: https://zenodo.org/record/6302763#.Yi8Q6xDMK7N.


Giuditta Caliendo a utilisé ce corpus pour son étude “Vaccine Nationalism or ‘Brexit Dividend’? Strategies of Legitimation in the EU-UK Post-Brexit Debate on COVID-19 Vaccination Campaigns” publiée en open access dans la revue SOCIETIES: https://www.mdpi.com/2075-4698/12/2/37/htm.