TAXI Fare NYC

Présentation par Loïc BRANSTETT, Sévérino DA SILVA et Jérôme HOEN

Le 11/05/2019

Sommaire

  1. Présentation du projet
  2. Les données
  3. Le nettoyage
  4. Extraction de données
  5. Visualisation des données
  6. Exploitations
  7. Conclusion

Présentation du projet

Les données

key fare_amount pickup_datetime pickup_longitude pickup_latitude dropoff_longitude dropoff_latitude passenger_count
2009-06-15 17:26:21 4.5 2009-06-15 17:26:21 UTC -73.844311 40.721319 -73.84161 40.712278 1
2010-01-05 16:52:16 16.9 2010-01-05 16:52:16 UTC -74.016048 40.711303 -73.979268 40.782004 1
2011-08-18 00:35:00 5.7 2011-08-18 00:35:00 UTC -73.982738 40.76127 -73.991242 40.750562 2
2012-04-21 04:30:42 7.7 2012-04-21 04:30:42 UTC -73.98713 40.733143 -73.991567 40.758092 1
2010-03-09 07:51:00 5.3 2010-03-09 07:51:00 UTC -73.968095 40.768008 -73.956655 40.783762 1

Le nettoyage

  • Suppression de tout ce qui n'est pas dans NYC
  • Suppression de tous les passagers <= 0 et > 6
  • Suppression de tous les prix <= 0
  • Suppression de toutes les distances <= 0

Extraction des données

  • Ajout de la distance de Manhattan et Euclidienne
  • Ajout d'une variable de tranche d'horaire
  • Ajout d'une colonne pour savoir si la course a été faite pendant les jours fériés
  • Ajout des colonnes pour les jours de la semaine
  • Ajout d'une colonne pour l'année et la nuit
  • Ajout d'une variable pour savoir la course est avant septembre 2012

Visualisation des données

Répartition du prix par jour

Visualisation des données

Répartition du prix par distance

Heatmap de corrélation des variables

Exploitations des données

Régression linéaire

Distance de Manhattan:

  • R² : 0.762

Distance Euclidienne:

  • R² : 0.785

Exploitations des données

Random Forest Regressor

Distance Euclidienne:

  • R² : 0.865

Exemple de RandomForestRegressor

Conclusion

Questions ?

FIN

Made with Slides.com