crise, flux et archives

méthodolologies de la collecte des données issues des médias sociaux

présences (in)visibles? - infoclio.ch
9 septembre 2021

qui suis-je?

  • historien (c2dh / uni.lu)
  • contemporanéiste
  • mémoires et réseaux sociaux

crise?

que (et qui)
documentons-nous?

sources en flux?

du flux à l'archive

  • twitter comme flux d'informations
  • twitter comme entrelacs de temporalités
  • archive de tweets comme ensemble figé

figer le flux...

novembre 2016

novembre 2020

collecter des tweets

api

  • deux versions de l'API
  • API payante (v1.1 ou v2)
  • search endpoint
    (v1.1 ou v2)
  • streaming endpoint
    (v1.1 ou v2)

scrapping

  • nombreux outils
  • instabilité
  • se débarrasser des contraintes de l'API
  • pas conforme aux TOS

search endpoint

  • très limitée (v1.1)
  • limitée pour les non chercheurs
  • avantageuse pour les chercheurs (v2)

streaming endpoint

  • limitée mais adaptée à la plupart des recherches (v1.1)
  • limitée (v2), y compris pour les chercheurs

vs.

search endpoint (v2)

  • 10 millions / mois (chercheurs)
  • depuis 2006!
  • sans les tweets privés, les MP, les tweets effacés ou de comptes effacés

 

problème des controverses ou fake news

streaming endpoint (v1.1)

  • 1% de tout les tweets à un temps t (pas d'historique)
  • anticipation
  • sans les tweets privés

 

 

adapté à l'étude des controverses / fake news

vs.

de l'éthique à l'outil

pourquoi lier éthique
et outil de collecte

  • collecter des données à l'ère du capitalisme de surveillance (Zuboff)
  • collecter des données sur les médias sociaux implique de nombreux éléments éthiques et légaux
  • comment collecter sans préjudice pour les utilisateurs des médias sociaux?

Documenting the Now

Berendt Bettina, Büchler Marco et Rockwell Geoffrey, 2015,
« Is it Research or is it Spying? Thinking-Through Ethics in Big Data AI and Other Knowledge Sciences »
KI - Künstliche Intelligenz, vol. 29, n° 2, p. 223‑232.

 

documenting the now

  • issu d'une réflexion née au moment des manifestations de Ferguson
  • collecter et archiver sans préjudice pour les activistes
  • design des outils en fonction de cette dimension

twarc

  • grande réactivité:
    son adaptation à l'API v2 en environ un mois
  • adapté à tous les endpoints
  • gère les contraintes pour vous (nombre de requête, etc)
  • vous donne le choix du format de collecte (csv, json, etc)
    • json: format d'archivage
    • csv : format de travail
  • respecte les TOS de Twitter
twarc2 search --archive 'votremotclé' --limit=1000 --start-time 2018-01-01 --end-time 2018-12-31 > votremotclé.json
twarc2 flatten votremotclé.json votremotclé_flat.json

OR

twarc2 csv votremotclé.json > votremotclé.csv

twarc a de nombreuses fonctionnalités

  • api v1.1 ou v2
  • search or stream (all endpoints)
  • plug-ins: extraction des vidéos par ex
  • peut-être intégré à des scripts python

 

documenting the now propose d'autres logiciels ainsi qu'un annuaire de jeux de données

de nombreux autres outils

  • dmi-tcat par exemple (stream)

limitations

les «classiques»

  • rgpd / vie privée
  • les discussions (meilleur en v2)
  • les métadonnées: nombreuses, mais pas toujours utilisables (et utilisées)
  • ...

qui?

Crise, flux et archive: méthodolologies de la collecte des médias sociaux

By Frédéric Clavert

Crise, flux et archive: méthodolologies de la collecte des médias sociaux

  • 553