Actions
  • shareshare
  • link
  • cite
  • add
add
auto_awesome_motion View all 4 versions
Publication . Part of book or chapter of book . 2017

Le corpus Polititweets : enjeux institutionnels, juridiques, techniques et philologiques

Julien Longhi;
French
Published: 20 Feb 2017
Publisher: HAL CCSD
Country: France
Abstract
International audience; L'analyse du discours politique connaît un renouvellement important, dû notamment aux nouveaux supports et formats d'expression, comme les réseaux sociaux numériques (RSN). Or, ces lieux de production d'écrits sont le plus souvent saisis par des disciplines qui les traitent comme des données sociales, plutôt que comme des discours. Cet article vise à décrire les enjeux philologiques, herméneutiques, et également institutionnels et interdisciplinaires, de la constitution d'un corpus de tweets politiques. Le corpus Polititweets (Longhi et al. 2014 : 34273 messages, 205 utilisateurs) a été élaboré selon le format TEI (avec des pistes d'extension aux formats CMC proposées par un groupe européen qui s'est constitué autour de cette question), afin de tenir compte des éléments spatio-temporels, contextuels, technologiques, interactionnels, thématiques, dialogiques, etc. des messages produits. Il s'agit donc dans un premier temps de décrire le contexte d'élaboration du corpus, la méthodologie et des considérations juridiques. Dans un second temps, nous détaillons les enjeux philologiques de la constitution du corpus, en explicitant les critères qui ont présidé à sa structuration, pour passer d'une base de données à un corpus au format TEI. Dans un dernier temps, nous décrivons la démarche de mise à disposition du corpus et les questions d'« open access ».
Subjects

tweets, corpus, CMC, TEI, [SHS.LANGUE]Humanities and Social Sciences/Linguistics

Related Organizations

Alkhouli, Abdulhafiz, Vodislav, Dan, Borzic, Boris (2015) : « Algorithms for continuous top-k processing in social networks », Proceedings of the first International Symposium on Web AlGorithms, Deauville, France, disponible sur : <hal01171346>. [OpenAIRE]

Chanier, Thierry, Poudat, Céline, Sagot, Benoit, Antoniadis, Georges, Wigham, Ciara R., Hriba, Linda, Longhi, Julien, Seddah, Djamée (2014) : « The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres », JLCL - Journal for Language Technology and Computational Linguistics, 29 (2), 1-30. [OpenAIRE]

Dacos, Marin, Mounier, Pierre (2014) : Humanités numériques. État des lieux et positionnement de la recherche française dans le contexte international, accessible en ligne sur http://www.institutfrancais.com/sites/default/files/if_humanit es-numeriques.pdf.

Djemili, Sarah, Longhi, Julien, et al. (2014) : « What does Twitter have to say about ideology ? » in G. Faaß & J. Ruppenhofer (dirs.), NLP 4 CMC: Natural Language Processing for Computer-Mediated Communication / Social Media - Preconference workshop at Konvens 2014, Oct 2014, Hildesheim, Germany. Universitätsverlag Hildesheim, 1, 16- 25.

Longhi, Julien (2013) : « Essai de caractérisation du tweet politique », L'Information grammaticale, 136, 25-32

Longhi, Julien, Marinica Borzic, Boris, Alkhouli, Abdulhafiz (2014) : Polititweets, corpus de tweets provenant de comptes politiques influents, in T. Chanier (ed) Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-polititweets- tei-v1].

Longhi, Julien, Wigham, Ciara R. (2015) : « Structuring a CMC corpus of political tweets in TEI: corpus features, ethics and workflow », poster présenté à Corpus Linguistics 2015, Jul 2015, Lancaster, United Kingdom, accessible sur https://halshs.archives-ouvertes.fr/halshs-01176061.

Paveau, Marie-Anne (9 mai 2013) : Analyse discursive des réseaux sociaux numériques », in Dictionnaire d'analyse du discours numérique, Technologies discursives [Carnet de recherche], accessible sur http://technodiscours.hypotheses.org/?p=431

moresidebar