基于多源交通数据的城市拥堵预测
报告人:李孜
交通拥堵影响着城市生活的正常运转,相关的研究一直很活跃。大数据时代,深度学习为我们提供了解决问题新思路。

引言
在纽约市,每年大约有2亿人次乘坐出租车出行。如果能够预测出租车乘客数量变化的趋势,就可以为城市规划者提供帮助,从而减轻交通压力。
Input:
Data, one-hour time window, and location within NYC
Output:
Predicted number of taxi pickups at the input time and location
Process:
- 数据预处理(Pandas)
- 建模
- 模型评估
- 预测
- 结果可视化(Tableau)
-
数据预处理
数据来源于纽约出租车和豪华轿车委员会(TLC),包括黄色出租车、绿色出租车和Uber出租车的相关信息。这些信息包括所有出租车每次行程的日期、时间、上车地点和下车地点、路程距离、支付类型、小费数目、总费用。同时我们也爬取了相应的每小时的天气数据。


我们采用Python的Geopy库确定经纬度信息对应地区的邮政编码。我们把原始数据按时间、邮政编码、气温分组,统计每一组对应的乘车次数,把这些聚合后的数据作为可视化的数据集。例如,“2016-04- 01 00:00:00, 49.0, 0, 10001, 375”
-
建模
Data sets
Pre-processing
samples
learning algorithm
optimization
model evaluation
Final model
Prediction
xgboost
Random Connectivity LSTM
Bayesian Optimization
Gradient Descent
MSE RMSE
Random Connectivity Long Short-Term Memory
LSTM 是递归神经网络(RNN)的一种,能够在序列数据中捕捉长距离的依赖关系。


然而,LSTM具有相当大的计算成本, 我们拟采用RCLSTM 。RCLSTM是以随机方式来确定连接,而不是全连接形式。因此它表现出一定的稀疏性,这意味着许多神经连接不存在,要训练的参数数量减少,计算量减少。


-
模型评估
为了评估模型,我们首先将数据分为训练集(80%)和测试集(20%)。同时,将所有的数据根据时间来进行排序,保证测试集发生在训练集之后 。
选用RMSE来评估我们的模型预测结果。当预测值和真实值的偏差很高的时候,会给予模型预测结果较重的惩罚值。从出租车调度者的角度看,对于一个特定地区的大数量调度失误可能会是昂贵的。而RMSE就会对上述的分配错误给予高的惩罚值。
在动态地图中进行数据的可视化,更直观的看到每小时的变化情况。
-
预测
总结
我们希望这个模型可以做到,利用共享数据,对道路交通状态进行预测,并通过交通信息发布方式对外发布。帮助城市策划者和出租车调度者将交通资源合理配置,以及减少拥堵。

Data source:
Data period: 01/01/2016 ~ 06/01/2017
Uber: https://github.com/fivethirtyeight/uber-tlc-foil-response
Yellow/green Cab: http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml
Weather: NOAA climate data website: http://www.ncdc.noaa.gov/cdo-web/
开题答辩版 拥堵预测
By Li zi
开题答辩版 拥堵预测
- 263
