TAXI Fare NYC
Présentation par Loïc BRANSTETT, Sévérino DA SILVA et Jérôme HOEN
Le 11/05/2019
Sommaire
- Présentation du projet
- Les données
- Le nettoyage
- Extraction de données
- Visualisation des données
- Exploitations
- Conclusion
Présentation du projet
Les données
key | fare_amount | pickup_datetime | pickup_longitude | pickup_latitude | dropoff_longitude | dropoff_latitude | passenger_count |
---|---|---|---|---|---|---|---|
2009-06-15 17:26:21 | 4.5 | 2009-06-15 17:26:21 UTC | -73.844311 | 40.721319 | -73.84161 | 40.712278 | 1 |
2010-01-05 16:52:16 | 16.9 | 2010-01-05 16:52:16 UTC | -74.016048 | 40.711303 | -73.979268 | 40.782004 | 1 |
2011-08-18 00:35:00 | 5.7 | 2011-08-18 00:35:00 UTC | -73.982738 | 40.76127 | -73.991242 | 40.750562 | 2 |
2012-04-21 04:30:42 | 7.7 | 2012-04-21 04:30:42 UTC | -73.98713 | 40.733143 | -73.991567 | 40.758092 | 1 |
2010-03-09 07:51:00 | 5.3 | 2010-03-09 07:51:00 UTC | -73.968095 | 40.768008 | -73.956655 | 40.783762 | 1 |
Le nettoyage
- Suppression de tout ce qui n'est pas dans NYC
- Suppression de tous les passagers <= 0 et > 6
- Suppression de tous les prix <= 0
- Suppression de toutes les distances <= 0
Extraction des données
- Ajout de la distance de Manhattan et Euclidienne
- Ajout d'une variable de tranche d'horaire
- Ajout d'une colonne pour savoir si la course a été faite pendant les jours fériés
- Ajout des colonnes pour les jours de la semaine
- Ajout d'une colonne pour l'année et la nuit
- Ajout d'une variable pour savoir la course est avant septembre 2012
Visualisation des données
Répartition du prix par jour
Visualisation des données
Répartition du prix par distance
Heatmap de corrélation des variables
Exploitations des données
Régression linéaire
Distance de Manhattan:
- R² : 0.762
Distance Euclidienne:
- R² : 0.785
Exploitations des données
Random Forest Regressor
Distance Euclidienne:
- R² : 0.865
Exemple de RandomForestRegressor
Conclusion
Questions ?
FIN
NYC Taxi Fare
By urgau-1
NYC Taxi Fare
- 115