13 mai 2024
L’inégale abordabilité du logement dans les villes européenne, un retour d'expérience
La base de données ESPON sur le logement, aperçu des prix dans une sélection de villes Européennes
Renaud Le Goix, Ronan Ysebaert, Timothée Giraud, Marc Lieury, Guilhem Boulay, Mathieu Coulon, Sébastien Rey-Coyrehourcq*, Rémi Lemoy*, José J. Ramasco, Mattia Mazzoli, Pere Colet, Thierry Theurillat, Alain Segessemann, Szymon Marcińczak et Bartosz Bartosiewicz
Les prix immobiliers
- Une variable essentielle pour comprendre les aires urbaines
- Variations spatiales des prix, inégalités d'accès au logement
Capture d'écran de https://explore.data.gouv.fr/fr/immobilier
Eléments de contexte
- Le prix des maisons augmente plus vite que les revenus des acheteurs et/ou résidents
- Inflation et volatilité depuis 2008
- Encadrement des loyers
Capture d'écran de https://explore.data.gouv.fr/fr/immobilier
Eléments de contexte
Abordabilité
Eléments de contexte
Accès aux données de prix immobiliers
- En France, la source de référence est la base de données BIEN/Perval renseignée par les notaires, très onéreuse
- Des données qui ont de la valeur !
Commande de données de la base Perval
Eléments de contexte
- Données disponibles sur Internet !
- Données d'annonce / de transaction
- Qualité des données
- Webscraping
Eléments de contexte
D'autre sources !
- N'existait pas lors de la conception du projet
- Gratuite, publique, API
- Seulement en France
Eléments de contexte
La base de données DVF
ESPON is an EU funded programme that delivers quality expertise to public authorities responsible for designing territorial policies.
Rapports:
Données :
SO 3 : “Improved territorial observation and tools for territorial analyses”
- Priority Axis 1: Territorial Evidence, Transfer, Observation, Tools and Outreach
- Priority Axis 2: Technical Assistance (TA)
- Implementation using 5 Specific Objective (SO)
format contraint et pas très accessible
Eléments de contexte
ESPON
2002
2030
septembre 2018 - juin2019
"Big Data for Territorial Analysis
and Housing Dynamics"
2020
H2020 ESPON
2014
H2030 ESPON
février 2021
Soumission Cybergéo DP
x
avril 2019
! DVF !
Data Paper
collection créée en 2017
+ 20 ans d'existence
Le choix de Cybergéo
format data-paper long : méthodologie & reproductibilité !
liberté sur la structuration des données
Francophone et Anglophone
Revue majeure en géographie quantitative
Pionnière de l'accès ouvert et gratuit (modèle Diamant)
Cybergéo
Cybergéo : data-paper
même reviewing qu'un article
prise en compte des spécificités géographique
des problématiques à la mise en oeuvre
Problématiques
Théorique(s)
Méthodologique(s)
Mieux comprendre l'augmentation des inégalités d'abordabilité aux logements à l'échelle locale en Europe
au sein d'une démarche transparente et reproductible
Hypothèses Indicateurs
couvrir plusieurs échelles EU standardisées
utiliser des sources de données conventionnelles et non conventionnelles
indicateurs harmonisés et inter-opérable
Base de données
harmonisé
Problématiques
Théorique(s)
Hypothèses Indicateurs
Inégalité d'accès fonction des revenus et de la richesse des ménages
Augmentation de ces inégalités depuis 1990
Le prix des maisons augmente plus vite que les revenus des acheteurs et/ou résidents
Inflation et Volatilité depuis 2008
Diversification des régimes de logements
Variation spatiale de ces inégalités
Problématiques
Théorique(s)
Hypothèses Indicateurs
Indicateurs factuels
(multi-sources)
Indicateurs complexes
indices d'abordabilité
prix / m²
rentabilité
Utilisent
statistique nationale
marché (transactions)
marché (offres)
Problématiques
Indicateurs harmonisés, inter-opérable, multi-scalaire dont la construction est reproductible
Méthodologique(s)
Indicateurs Base de données
Au sein d'une démarche transparente et reproductible
A différentes échelles EU standardisées
Sources de données :
- de nature conventionnelles et non conventionnelles
- hétérogènes dans le temps et l'espace
- lacunaires
Coordination entre 4 partenaires projets (4 pays)
Problématiques
Au sein d'une démarche transparente et reproductible
A différentes échelles EU standardisées
Sources de données :
- de nature conventionnelles et non conventionnelles
- hétérogènes dans le temps et l'espace
- lacunaires
Indicateurs harmonisés, inter-opérable, multi-scalaire dont la construction est reproductible
Méthodologique(s)
Indicateurs Base de données
Coordination entre 4 partenaires projets (4 pays)
FOCUS
Nature des données
Données institutionelles
- Eurostat / OECD
- Institut de stat. nationaux
- Villes
transactions
Données non-institutionelles
- Entreprises
Non Conventionelles
- Instituts publics
revenu
- Entreprises
- Entreprises
- Entreprises
- Scientifiques
marché
Conventionelles
Nature des données
Données institutionelles
- Eurostat / OECD
- Institut de stat. nationaux
- Villes
transactions
Données non-institutionelles
- Entreprises
Non Conventionelles
- Instituts publics
revenu
- Entreprises
- Entreprises
- Entreprises
- Scientifiques
marché
Conventionelles
Webscrapping
Mise en oeuvre
Webscraping en 2 mots
Le webscraping englobe l'ensemble des méthodes et des outils permettant d’extraire du contenu (des informations) d’un ou de plusieurs sites web de façon manuelle ou automatique.
De multiples enjeux en shs :
- Constitution de corpus
- existants par ailleurs mais trop cher
- inexistants par ailleurs donc originaux
- captation via des campagnes et/ou via un flux continu
- mondialisé avec/sans géoreferencement
- suivi longitudinal des objets étudiés
- approche mixte quali (sources, échantillonage) et quanti
Intérêt croissant au sein des laboratoires en SHS ...
Mise en oeuvre
Webscraping en 2 mots
Le webscraping englobe l'ensemble des méthodes et des outils permettant d’extraire du contenu (des informations) d’un ou de plusieurs sites web de façon manuelle ou automatique.
De multiples verrous :
- (A) droits / légalité de la collecte, du stockage, de la diffusion *
- (B) contrôle qualité / validation
-
(C) techniques lié à l'objet à capturer :
- résilience
- intégration
- reproductibilité
* focus spécifique pour cette journée
Mise en oeuvre
(A) Droit / Légalité webscraping
- (1) Pays
- (2) CGU / Robots.txt
- (3) Nature de l'information
- (4) Visibilité de l'information
- (5) Qui récolte l'information
- (6) Volumétrie
- (7) Finalité de la récolte
Pas de réponse simple, multiplicité de facteurs entre en jeu :
Jurisprudences & droit d'auteurs
Loi Nationale & Européenne
Personnelles ? Sensibles ?
Publiques ? Privés ?
Institutions ? Chercheurs ? Entreprises ?
Lucratif / Non lucratif ?
Avec ou Sans modifications ?
Traitements, Aggrégation ?
Substansielle ? Non Substantielle ?
(... +/- loi du plus fort à l'international entre multinationales ...)
Mise en oeuvre
(A) Droit / Légalité webscraping
- (1) Pays
- (2) CGU / Robots.txt
- (3) Nature de l'information
- (4) Visibilité de l'information
- (5) Qui récolte l'information
- (6) Volumétrie
- (7) Finalité de la récolte
Pas de réponse simple, multiplicité de facteurs entre en jeu :
Jurisprudences & droit d'auteurs
Loi Nationale & Européenne
Chacun des partenaires scientifique du projet devait gérer cette contrainte pour sa/ses propres sources de webscraping...
=> Données collectées non versées au rapport final
Mise en oeuvre
(A) Droit / Légalité webscraping
Pas de réponse simple, multiplicité de facteurs entre en jeu :
- (1) France
- (2) LeBonCoin, CGU interdiction
- (3) Mixte
- (4) Publique
- (5) Scientifique
- (6) Limité temps & espace
- (7) Base de données &
Agrégation spatiale
Le scraping semble légal car possible sans inscription et acceptation des CGU préalable l'interdisant ...
RGPD qui prévoit des dérogations pour les chercheurs (article 6) mais nécessite anonymisation (sup < 10 annonces ici)
Mise en oeuvre
(A) Droit / Légalité webscraping
Pas de réponse simple, multiplicité de facteurs entre en jeu :
- (1) France
- (2) LeBonCoin, CGU interdiction
- (3) Mixte
- (4) Publique
- (5) Scientifique
- (6) Limité temps & espace
- (7) Base de données &
Agrégation spatiale
Base de données : Le droit d’auteur protège la forme, le droit sui generis le contenu de la base de données.
Jurisprudence(s) ?
Mise en oeuvre
Le droit sui generis sur les bases de données est un droit de propriété intellectuelle qui offre une protection au producteur de la base de données si celui-ci démontre que "la constitution, la vérification ou la présentation" du contenu de la base a nécessité un "investissement financier, matériel ou humain substantiel" (article L.341-1 du Code de la propriété intellectuelle).
2024 : Le Boncoin vs EntreParticuliers.com
... seulement si on regarde plus dans les détails pour notre cas : acteurs en jeu, caractère substantiel de l'extraction, etc ...
(A) Droit / Légalité webscraping
- (5) But non lucratif
- (6) Récolte non Substantielle (IDF sur 2 mois + Avignon)
Mise en oeuvre
Loi DAVSI de 1996, exception au chercheur introduite dans l'article L342-3 4ème article pour les BD ...
(A) Droit / Légalité webscraping
Mise en oeuvre
(A) Droit / Légalité webscraping
Actuellement : Stockage de la base de données FR dans un dépôt privé => Pas adapté !
Perspectives long-terme ? Humanum-Box ?
négociée sur une base forfaitaire ?
Mise en oeuvre
(A) Droit / Légalité webscraping
Et les acteurs de collectes privés ?
Inside Airbnb is a mission driven project that provides data and advocacy about Airbnb's impact on residential communities.
We work towards a vision where communities are empowered with data and information to understand, decide and control the role of renting residential homes to tourists.
Mise en oeuvre
(B) Evaluation de la qualité des données
Questions récurrentes avec ce type de collecte :
- déterminer l'echantillonage temporel & spatial
- évaluer la représentativité de cet échantillon
- comparer des sources +/- ouvertes, hétérogènes spatialement et temporellement (ex: AirDNA vs InsideAirbnb vs Scripts)
LA Problématique au coeur de la publication :
Peut-on combiner/harmoniser des données conventionelles et non conventionelles avec différents pays, différentes sources de données ?
Mise en oeuvre
(B) Evaluation de la qualité des données
- re/constructions
- non échantillonées
- pas d'erreur standard
- lacunaires
Tests utilisés :
Données Scrappées, PERVAL, DVF :
- Kruskal-Wallis
- Dunn pairwise
[ ... ] it seems inappropriate to conclude that scraped data are representative of institutional data as an alternative data source, because of uncontrolled bias in all three data sources, that affects the pairwise comparison of data. [...] scraped data, based on advertised transactions, are characterized by a higher variance, especially regarding the advertised price and surface, and outliers [ ... ]
mais c'est mieux que rien ....
Indicateur utilisé :
- prix / m²
Mise en oeuvre
(C) Verrous techniques
- Intégrer l'incertitude du Web sur plusieurs mois
- Technologies anti-scraping plus sophistiqué (LLM n'arrange rien)
- Durée de la campagne de collecte
- Nature de l'information à récupérer
- Stockage ? Curation ? Status de ces données brutes ?
=> Il peut être plus intéressant/pertinent d'acheter ou de collecter manuellement...
=> architecture +/- résiliente, du simple script à une usine à gaz ...
=> Intégration automatique et continue des données est souvent beaucoup plus complexe que la collecte ...
Autres réflexions en cours :
Au delà de FAIR, la science reproductible ...
résultats NR
résultats et méthodes NR.
résultats et méthodes R.
résultats et méthodes R. argumentées
maximiser la réutilisabilité, publier ...
résultats et méthodes R. argumentées + exemples d'utilisation R.
Au delà de FAIR...
Les codes sources et logiciels ne doivent pas être considérés comme des données : ils présentent des enjeux, pratiques et recommandations de partage et d’ouverture particuliers.
src : COSO
FAIR data
Science Reproductible
Science Reproductible
Théorie
Réalité
Code sources et logiciels
Code sources et logiciels
FAIR data
donnée(s) brutes & inter.
... avec Cybergéo
- Echanges classiques avec les reviewers, discussions sur l'entrepot de données => HumaNum
- Publication (en 2019 !) d'un méthodologie reproductible pour la création des indicateurs de synthèse (RMarkdown)
- Publication des données finalisés & non publication des données brutes (contraintes légales & ESPON)
- Données organisés en respectant une logique maximisant la diffusion (!= ESPON)
Format assez libre : large place dédié à l'usage explicité de méthodes et des exemples de réusages appliqué à des données spécifiques
- Codes Sources Scraping : mémoire M2 Marc Lieury
Literate Programming
codes sources + explications
rapport généré (html)
données aggrégées
computation
... avec R & RMarkdown
Perspectives
- Continuité dans l'intégration et la comparaison des données AirBnB pour l'immobilier :
- insideAirbnb
- airDNA
ANR WIsDHoM, publications en cours ...
- UPC Emergence
- InsideAirbnb (Murray Cox, activiste)
- granularité à l'annonce
- extension de l'IDF à France entière
- Groupe de travail et formation inter-équipes UMR sur les aspects juridiques et techniques, webscraping, reproductibilité
- Discussions avec les DPO (Univ. et Cnrs)
data-paper-geo-abordabilite-logement
By sebastien rey coyrehourcq
data-paper-geo-abordabilite-logement
- 22