Alexis Jacomy - @jacomyal
Human Coders Nantes, mars 2015
2013 - 2014
2014 - aujourd'hui
Humanités numériques
Veille concurentielle
Analyse de données
développé par Guillaume Plique
Sciences-Po médialab
drag-n-dropper le logo depuis le site Web
dans la barre de favoris
en utilisant l'inspecteur du DOM
du navigateur et document.querySelectorAll
document.querySelectorAll('#siteTable .thing .entry a.title');
avec Artoo, ça donne :
artoo.scrape(
'#siteTable .thing .entry a.title',
{
title: 'text',
url: 'href'
}
);
// On utilise le même scraper :
var scraper = {
iterator: '#siteTable .thing .entry a.title',
data: { title: 'text', url: 'href' }
};
// On scrape la première page (celle ouverte) :
var frontpageData = artoo.scrape(scraper);
// On scrape les pages suivantes :
artoo.ajaxSpider(
// Cette fonction va déterminer, en fonction de
// la dernière page scrapée, l'URL de la suivante :
function(i, $data) {
var $context = i ? $data : artoo.$(document);
return (
$context
.find('.nav-buttons .nextprev a[rel~="next"]')
.attr('href')
);
},
{
limit: 2,
scrape: scraper,
concat: true,
done: function(data) {
// On ajoute les datas de la première page :
data = frontpageData.concat(data);
console.log(data);
}
}
);
avec les spiders de Artoo :
avec les helpers dédiés :
artoo.saveCsv(data);
grâce à l'outil dédié
Slides disponibles à l'adresse :