13 mai 2024
L’inégale abordabilité du logement dans les villes européenne, un retour d'expérience
La base de données ESPON sur le logement, aperçu des prix dans une sélection de villes Européennes
Renaud Le Goix, Ronan Ysebaert, Timothée Giraud, Marc Lieury, Guilhem Boulay, Mathieu Coulon, Sébastien Rey-Coyrehourcq*, Rémi Lemoy*, José J. Ramasco, Mattia Mazzoli, Pere Colet, Thierry Theurillat, Alain Segessemann, Szymon Marcińczak et Bartosz Bartosiewicz
Capture d'écran de https://explore.data.gouv.fr/fr/immobilier
Capture d'écran de https://explore.data.gouv.fr/fr/immobilier
Commande de données de la base Perval
ESPON is an EU funded programme that delivers quality expertise to public authorities responsible for designing territorial policies.
Rapports:
Données :
SO 3 : “Improved territorial observation and tools for territorial analyses”
format contraint et pas très accessible
2002
2030
septembre 2018 - juin2019
"Big Data for Territorial Analysis
and Housing Dynamics"
2020
H2020 ESPON
2014
H2030 ESPON
février 2021
Soumission Cybergéo DP
x
avril 2019
! DVF !
collection créée en 2017
+ 20 ans d'existence
Le choix de Cybergéo
format data-paper long : méthodologie & reproductibilité !
liberté sur la structuration des données
Francophone et Anglophone
Revue majeure en géographie quantitative
Pionnière de l'accès ouvert et gratuit (modèle Diamant)
Cybergéo
Cybergéo : data-paper
même reviewing qu'un article
prise en compte des spécificités géographique
Théorique(s)
Méthodologique(s)
Mieux comprendre l'augmentation des inégalités d'abordabilité aux logements à l'échelle locale en Europe
au sein d'une démarche transparente et reproductible
Hypothèses Indicateurs
couvrir plusieurs échelles EU standardisées
utiliser des sources de données conventionnelles et non conventionnelles
indicateurs harmonisés et inter-opérable
Base de données
harmonisé
Théorique(s)
Hypothèses Indicateurs
Inégalité d'accès fonction des revenus et de la richesse des ménages
Augmentation de ces inégalités depuis 1990
Le prix des maisons augmente plus vite que les revenus des acheteurs et/ou résidents
Inflation et Volatilité depuis 2008
Diversification des régimes de logements
Variation spatiale de ces inégalités
Théorique(s)
Hypothèses Indicateurs
Indicateurs factuels
(multi-sources)
Indicateurs complexes
indices d'abordabilité
prix / m²
rentabilité
Utilisent
statistique nationale
marché (transactions)
marché (offres)
Indicateurs harmonisés, inter-opérable, multi-scalaire dont la construction est reproductible
Méthodologique(s)
Indicateurs Base de données
Au sein d'une démarche transparente et reproductible
A différentes échelles EU standardisées
Sources de données :
- de nature conventionnelles et non conventionnelles
- hétérogènes dans le temps et l'espace
- lacunaires
Coordination entre 4 partenaires projets (4 pays)
Au sein d'une démarche transparente et reproductible
A différentes échelles EU standardisées
Sources de données :
- de nature conventionnelles et non conventionnelles
- hétérogènes dans le temps et l'espace
- lacunaires
Indicateurs harmonisés, inter-opérable, multi-scalaire dont la construction est reproductible
Méthodologique(s)
Indicateurs Base de données
Coordination entre 4 partenaires projets (4 pays)
FOCUS
Données institutionelles
transactions
Données non-institutionelles
Non Conventionelles
revenu
marché
Conventionelles
Données institutionelles
transactions
Données non-institutionelles
Non Conventionelles
revenu
marché
Conventionelles
Webscrapping
Webscraping en 2 mots
Le webscraping englobe l'ensemble des méthodes et des outils permettant d’extraire du contenu (des informations) d’un ou de plusieurs sites web de façon manuelle ou automatique.
De multiples enjeux en shs :
Intérêt croissant au sein des laboratoires en SHS ...
Webscraping en 2 mots
Le webscraping englobe l'ensemble des méthodes et des outils permettant d’extraire du contenu (des informations) d’un ou de plusieurs sites web de façon manuelle ou automatique.
De multiples verrous :
* focus spécifique pour cette journée
(A) Droit / Légalité webscraping
Pas de réponse simple, multiplicité de facteurs entre en jeu :
Jurisprudences & droit d'auteurs
Loi Nationale & Européenne
Personnelles ? Sensibles ?
Publiques ? Privés ?
Institutions ? Chercheurs ? Entreprises ?
Lucratif / Non lucratif ?
Avec ou Sans modifications ?
Traitements, Aggrégation ?
Substansielle ? Non Substantielle ?
(... +/- loi du plus fort à l'international entre multinationales ...)
(A) Droit / Légalité webscraping
Pas de réponse simple, multiplicité de facteurs entre en jeu :
Jurisprudences & droit d'auteurs
Loi Nationale & Européenne
Chacun des partenaires scientifique du projet devait gérer cette contrainte pour sa/ses propres sources de webscraping...
=> Données collectées non versées au rapport final
(A) Droit / Légalité webscraping
Pas de réponse simple, multiplicité de facteurs entre en jeu :
Le scraping semble légal car possible sans inscription et acceptation des CGU préalable l'interdisant ...
RGPD qui prévoit des dérogations pour les chercheurs (article 6) mais nécessite anonymisation (sup < 10 annonces ici)
(A) Droit / Légalité webscraping
Pas de réponse simple, multiplicité de facteurs entre en jeu :
Base de données : Le droit d’auteur protège la forme, le droit sui generis le contenu de la base de données.
Jurisprudence(s) ?
Le droit sui generis sur les bases de données est un droit de propriété intellectuelle qui offre une protection au producteur de la base de données si celui-ci démontre que "la constitution, la vérification ou la présentation" du contenu de la base a nécessité un "investissement financier, matériel ou humain substantiel" (article L.341-1 du Code de la propriété intellectuelle).
2024 : Le Boncoin vs EntreParticuliers.com
... seulement si on regarde plus dans les détails pour notre cas : acteurs en jeu, caractère substantiel de l'extraction, etc ...
(A) Droit / Légalité webscraping
Loi DAVSI de 1996, exception au chercheur introduite dans l'article L342-3 4ème article pour les BD ...
(A) Droit / Légalité webscraping
(A) Droit / Légalité webscraping
Actuellement : Stockage de la base de données FR dans un dépôt privé => Pas adapté !
Perspectives long-terme ? Humanum-Box ?
négociée sur une base forfaitaire ?
(A) Droit / Légalité webscraping
Et les acteurs de collectes privés ?
Inside Airbnb is a mission driven project that provides data and advocacy about Airbnb's impact on residential communities.
We work towards a vision where communities are empowered with data and information to understand, decide and control the role of renting residential homes to tourists.
(B) Evaluation de la qualité des données
Questions récurrentes avec ce type de collecte :
LA Problématique au coeur de la publication :
Peut-on combiner/harmoniser des données conventionelles et non conventionelles avec différents pays, différentes sources de données ?
(B) Evaluation de la qualité des données
Tests utilisés :
Données Scrappées, PERVAL, DVF :
[ ... ] it seems inappropriate to conclude that scraped data are representative of institutional data as an alternative data source, because of uncontrolled bias in all three data sources, that affects the pairwise comparison of data. [...] scraped data, based on advertised transactions, are characterized by a higher variance, especially regarding the advertised price and surface, and outliers [ ... ]
mais c'est mieux que rien ....
Indicateur utilisé :
(C) Verrous techniques
=> Il peut être plus intéressant/pertinent d'acheter ou de collecter manuellement...
=> architecture +/- résiliente, du simple script à une usine à gaz ...
=> Intégration automatique et continue des données est souvent beaucoup plus complexe que la collecte ...
Autres réflexions en cours :
résultats NR
résultats et méthodes NR.
résultats et méthodes R.
résultats et méthodes R. argumentées
maximiser la réutilisabilité, publier ...
résultats et méthodes R. argumentées + exemples d'utilisation R.
Les codes sources et logiciels ne doivent pas être considérés comme des données : ils présentent des enjeux, pratiques et recommandations de partage et d’ouverture particuliers.
src : COSO
FAIR data
Science Reproductible
Science Reproductible
Théorie
Réalité
Code sources et logiciels
Code sources et logiciels
FAIR data
donnée(s) brutes & inter.
Format assez libre : large place dédié à l'usage explicité de méthodes et des exemples de réusages appliqué à des données spécifiques
Literate Programming
codes sources + explications
rapport généré (html)
données aggrégées
computation
ANR WIsDHoM, publications en cours ...