13 mai 2024

L’inégale abordabilité du logement dans les villes européenne, un retour d'expérience

La base de données ESPON sur le logement, aperçu des prix dans une sélection de villes Européennes

Renaud Le Goix, Ronan Ysebaert, Timothée Giraud, Marc Lieury, Guilhem Boulay, Mathieu Coulon, Sébastien Rey-Coyrehourcq*, Rémi Lemoy*, José J. Ramasco, Mattia Mazzoli, Pere Colet, Thierry Theurillat, Alain Segessemann, Szymon Marcińczak et Bartosz Bartosiewicz

Les prix immobiliers

  • Une variable essentielle pour comprendre les aires urbaines
     
  • Variations spatiales des prix, inégalités d'accès au logement

Eléments de contexte

  • Le prix des maisons augmente plus vite que les revenus des acheteurs et/ou résidents
     
  • Inflation et volatilité depuis 2008
     
  • Encadrement des loyers

Eléments de contexte

Abordabilité

Eléments de contexte

Accès aux données de prix immobiliers

  • En France, la source de référence est la base de données BIEN/Perval renseignée par les notaires, très onéreuse
  • Des données qui ont de la valeur !

Commande de données de la base Perval

Eléments de contexte

  • Données disponibles sur Internet !
  • Données d'annonce / de transaction
  • Qualité des données
  • Webscraping

Eléments de contexte

D'autre sources !

  • N'existait pas lors de la conception du projet
  • Gratuite, publique, API
  • Seulement en France

Eléments de contexte

La base de données DVF

ESPON is an EU funded programme that delivers quality expertise to public authorities responsible for designing territorial policies.

Rapports:

Données :

SO 3 : “Improved territorial observation and tools for territorial analyses”

  • Priority Axis 1: Territorial Evidence, Transfer, Observation, Tools and Outreach
  • Priority Axis 2: Technical Assistance (TA)
  • Implementation using 5 Specific Objective (SO)

format contraint et pas très accessible

Eléments de contexte

ESPON

2002

2030

septembre 2018 - juin2019
"Big Data for Territorial Analysis

and Housing Dynamics"

2020

H2020 ESPON

2014

H2030 ESPON

février 2021
Soumission  Cybergéo DP

x

avril 2019
! DVF !

Data Paper

collection créée en 2017

 + 20 ans d'existence

Le choix de Cybergéo

format data-paper long : méthodologie & reproductibilité !

liberté sur la structuration des données

Francophone et Anglophone

Revue majeure en géographie quantitative

Pionnière de l'accès ouvert et gratuit (modèle Diamant)

Cybergéo

Cybergéo : data-paper

même reviewing qu'un article

prise en compte des spécificités géographique

des problématiques à la mise en oeuvre

Problématiques

Théorique(s)

Méthodologique(s)

Mieux comprendre l'augmentation des inégalités d'abordabilité aux logements à l'échelle locale en Europe

au sein d'une démarche transparente et reproductible

Hypothèses               Indicateurs

couvrir plusieurs échelles EU standardisées

utiliser des sources de données conventionnelles et non conventionnelles

indicateurs harmonisés et inter-opérable

Base de données
harmonisé

Problématiques

Théorique(s)

Hypothèses               Indicateurs

Inégalité d'accès fonction des revenus et de la richesse des ménages

Augmentation de ces inégalités depuis 1990

Le prix des maisons augmente plus vite que les revenus des acheteurs et/ou résidents

Inflation et Volatilité depuis 2008

Diversification des régimes de logements

Variation spatiale de ces inégalités

Problématiques

Théorique(s)

Hypothèses               Indicateurs

Indicateurs factuels
(multi-sources)

Indicateurs complexes

indices d'abordabilité

prix / m²

rentabilité

Utilisent

statistique nationale

marché (transactions)

marché (offres)

Problématiques

Indicateurs harmonisés, inter-opérable, multi-scalaire dont la construction est reproductible

Méthodologique(s)

Indicateurs               Base de données

Au sein d'une démarche transparente et reproductible

A différentes échelles EU standardisées

Sources de données :
  - de nature conventionnelles et non conventionnelles
  - hétérogènes dans le temps et l'espace

  - lacunaires

Coordination entre 4 partenaires projets (4 pays)

Problématiques

Au sein d'une démarche transparente et reproductible

A différentes échelles EU standardisées

Sources de données :
  - de nature conventionnelles et non conventionnelles
  - hétérogènes dans le temps et l'espace

  - lacunaires

Indicateurs harmonisés, inter-opérable, multi-scalaire dont la construction est reproductible

Méthodologique(s)

Indicateurs               Base de données

Coordination entre 4 partenaires projets (4 pays)

FOCUS

Nature des données

Données institutionelles

  • Eurostat / OECD
  • Institut de stat. nationaux
     
  • Villes

transactions

Données non-institutionelles

  • Entreprises

Non Conventionelles

  • Instituts publics

revenu

  • Entreprises
  • Entreprises
  • Entreprises
  • Scientifiques

marché

Conventionelles

Nature des données

Données institutionelles

  • Eurostat / OECD
  • Institut de stat. nationaux
     
  • Villes

transactions

Données non-institutionelles

  • Entreprises

Non Conventionelles

  • Instituts publics

revenu

  • Entreprises
  • Entreprises
  • Entreprises
  • Scientifiques

marché

Conventionelles

Webscrapping

Mise en oeuvre

Webscraping en 2 mots

Le webscraping englobe l'ensemble des méthodes et des outils permettant d’extraire du contenu (des informations) d’un ou de plusieurs sites web de façon manuelle ou automatique.

De multiples enjeux en shs :

  • Constitution de corpus
    • existants par ailleurs mais trop cher
    • inexistants par ailleurs donc originaux
  • captation via des campagnes et/ou via un flux continu
  • mondialisé avec/sans géoreferencement
  • suivi longitudinal des objets étudiés
  • approche mixte quali (sources, échantillonage) et quanti

Intérêt croissant au sein des laboratoires en SHS ...

Mise en oeuvre

Webscraping en 2 mots

Le webscraping englobe l'ensemble des méthodes et des outils permettant d’extraire du contenu (des informations) d’un ou de plusieurs sites web de façon manuelle ou automatique.

De multiples verrous :

  • (A) droits / légalité de la collecte, du stockage, de la diffusion *
  • (B) contrôle qualité / validation
  • (C) techniques lié à l'objet à capturer :
    • résilience
    • intégration
    • reproductibilité

* focus spécifique pour cette journée

Mise en oeuvre

(A) Droit / Légalité webscraping

  • (1) Pays
  • (2) CGU / Robots.txt
  • (3) Nature de l'information
  • (4) Visibilité de l'information
  • (5) Qui récolte l'information
  • (6) Volumétrie
  • (7) Finalité de la récolte

Pas de réponse simple, multiplicité de facteurs entre en jeu :

Jurisprudences & droit d'auteurs

Loi Nationale & Européenne

Personnelles ? Sensibles ?

Publiques ? Privés ?

Institutions ? Chercheurs ? Entreprises ?

Lucratif / Non lucratif ?

Avec ou Sans modifications ?

Traitements, Aggrégation ?

Substansielle ? Non Substantielle ?

(... +/-  loi du plus fort à l'international entre multinationales ...)

Mise en oeuvre

(A) Droit / Légalité webscraping

  • (1) Pays
  • (2) CGU / Robots.txt
  • (3) Nature de l'information
  • (4) Visibilité de l'information
  • (5) Qui récolte l'information
  • (6) Volumétrie
  • (7) Finalité de la récolte

Pas de réponse simple, multiplicité de facteurs entre en jeu :

Jurisprudences & droit d'auteurs

Loi Nationale & Européenne

Chacun des partenaires scientifique du projet devait gérer cette contrainte pour sa/ses propres sources de webscraping...

=> Données collectées non versées au rapport final

Mise en oeuvre

(A) Droit / Légalité webscraping

Pas de réponse simple, multiplicité de facteurs entre en jeu :

  • (1) France
  • (2) LeBonCoin, CGU interdiction
  • (3) Mixte
  • (4) Publique
  • (5) Scientifique
  • (6) Limité temps & espace
  • (7) Base de données &
    Agrégation spatiale

Le scraping semble légal car possible sans inscription et acceptation des CGU préalable l'interdisant  ...

RGPD qui prévoit des dérogations pour les chercheurs (article 6) mais nécessite anonymisation (sup < 10 annonces ici)

Mise en oeuvre

(A) Droit / Légalité webscraping

Pas de réponse simple, multiplicité de facteurs entre en jeu :

  • (1) France
  • (2) LeBonCoin, CGU interdiction
  • (3) Mixte
  • (4) Publique
  • (5) Scientifique
  • (6) Limité temps & espace
  • (7) Base de données &
    Agrégation spatiale

Base de données : Le droit d’auteur protège la forme, le droit sui generis le contenu de la base de données.

Jurisprudence(s) ?

Mise en oeuvre

Le droit sui generis sur les bases de données est un droit de propriété intellectuelle qui offre une protection au producteur de la base de données si celui-ci démontre que "la constitution, la vérification ou la présentation" du contenu de la base a nécessité un "investissement financier, matériel ou humain substantiel" (article L.341-1 du Code de la propriété intellectuelle).

2024 : Le Boncoin vs EntreParticuliers.com

... seulement si on regarde plus dans les détails pour notre cas : acteurs en jeu, caractère substantiel de l'extraction, etc ...

(A) Droit / Légalité webscraping

  • (5) But non lucratif
  • (6) Récolte non Substantielle (IDF sur 2 mois + Avignon)

Mise en oeuvre

Loi DAVSI de 1996, exception au chercheur introduite dans l'article L342-3 4ème article pour les BD ...

(A) Droit / Légalité webscraping

Mise en oeuvre

(A) Droit / Légalité webscraping

Actuellement : Stockage de la base de données FR dans un dépôt privé => Pas adapté !

Perspectives long-terme ? Humanum-Box ?

négociée sur une base forfaitaire ?

Mise en oeuvre

(A) Droit / Légalité webscraping

Et les acteurs de collectes privés ?

Inside Airbnb is a mission driven project that provides data and advocacy about Airbnb's impact on residential communities.

 

We work towards a vision where communities are empowered with data and information to understand, decide and control the role of renting residential homes to tourists.

Mise en oeuvre

(B) Evaluation de la qualité des données

Questions récurrentes avec ce type de collecte :

  • déterminer l'echantillonage temporel & spatial
  • évaluer la représentativité de cet échantillon
  • comparer des sources +/- ouvertes, hétérogènes spatialement et temporellement (ex: AirDNA vs InsideAirbnb vs Scripts)

LA Problématique au coeur de la publication :

Peut-on combiner/harmoniser des données conventionelles et non conventionelles avec différents pays, différentes sources de données  ?

Mise en oeuvre

(B) Evaluation de la qualité des données

  • re/constructions
  • non échantillonées
  • pas d'erreur standard
  • lacunaires

Tests utilisés :

Données Scrappées, PERVAL, DVF :

  • Kruskal-Wallis
  • Dunn pairwise

[ ... ] it seems inappropriate to conclude that scraped data are representative of institutional data as an alternative data source, because of uncontrolled bias in all three data sources, that affects the pairwise comparison of data. [...] scraped data, based on advertised transactions, are characterized by a higher variance, especially regarding the advertised price and surface, and outliers [ ... ]

mais c'est mieux que rien ....

Indicateur utilisé :

  • prix / m²

Mise en oeuvre

(C) Verrous techniques

  • Intégrer l'incertitude du Web sur plusieurs mois
  • Technologies anti-scraping plus sophistiqué (LLM n'arrange rien)
  • Durée de la campagne de collecte
  • Nature de l'information à récupérer
  • Stockage ? Curation ? Status de ces données brutes ?

=> Il peut être plus intéressant/pertinent d'acheter ou de collecter manuellement...

=> architecture +/- résiliente, du simple script à une usine à gaz ...

=> Intégration automatique et continue des données est souvent beaucoup plus complexe que la collecte ...

Autres réflexions en cours :

Au delà de FAIR, la science reproductible ...

résultats NR

résultats et méthodes NR.

résultats et méthodes R.

résultats et méthodes R. argumentées

maximiser la réutilisabilité, publier ...

résultats et méthodes R. argumentées + exemples d'utilisation R.

Au delà de FAIR...

Les codes sources et logiciels ne doivent pas être considérés comme des données : ils présentent des enjeux, pratiques et recommandations de partage et d’ouverture particuliers.

src : COSO

FAIR data

Science Reproductible

Science Reproductible

Théorie

Réalité

Code sources et logiciels

Code sources et logiciels

FAIR data

donnée(s) brutes & inter.

... avec Cybergéo

  • Echanges classiques avec les reviewers, discussions sur l'entrepot de données => HumaNum
  • Publication (en 2019 !) d'un méthodologie reproductible pour la création des indicateurs de synthèse (RMarkdown)
  • Publication des données finalisés & non publication des données brutes (contraintes légales & ESPON)
  • Données organisés en respectant une logique maximisant la diffusion (!= ESPON)

Format assez libre : large place dédié à l'usage explicité de méthodes et des exemples de réusages appliqué à des données spécifiques

  • Codes Sources Scraping : mémoire M2 Marc Lieury

Literate Programming

codes sources + explications

rapport généré (html)

données aggrégées

computation

... avec R & RMarkdown

Perspectives

  • Continuité dans l'intégration et la comparaison des données AirBnB pour l'immobilier :
    • insideAirbnb
    • airDNA

ANR WIsDHoM, publications en cours ...

  • UPC Emergence
    • InsideAirbnb (Murray Cox, activiste)
    • granularité à l'annonce
    • extension de l'IDF à France entière
  • Groupe de travail et formation inter-équipes UMR sur les aspects juridiques et techniques, webscraping,  reproductibilité
  • Discussions avec les DPO (Univ. et Cnrs)

data-paper-geo-abordabilite-logement

By sebastien rey coyrehourcq

data-paper-geo-abordabilite-logement

  • 22