TransBigData 轨迹处理指南
安装
bash
pip install transbigdata
核心函数
1. 轨迹漂移清洗 - traj_clean_drift()
删除速度/距离/角度异常的漂移点。
python
import transbigdata as tbd
# 清洗漂移数据
data_clean = tbd.traj_clean_drift(
data,
col=['VehicleNum', 'Time', 'Lng', 'Lat'],
speedlimit=80, # 速度上限 km/h
dislimit=1000, # 距离上限 m
anglelimit=30 # 角度变化上限(度)
)
2. 冗余数据清洗 - traj_clean_redundant()
删除重复或冗余的轨迹点。
python
data_clean = tbd.traj_clean_redundant(
data,
col=['VehicleNum', 'Time', 'Lng', 'Lat']
)
3. 轨迹平滑 - traj_smooth()
使用卡尔曼滤波平滑轨迹。
python
data_smooth = tbd.traj_smooth(
data,
col=['id', 'time', 'lon', 'lat'],
process_noise_std=0.1,
measurement_noise_std=1
)
4. 轨迹分段 - traj_segment()
根据时间间隔分割轨迹,返回每段起终点信息。
python
segments = tbd.traj_segment(
data,
col=['VehicleNum', 'Time', 'Lng', 'Lat'],
groupby_col=['VehicleNum'],
retain_col=['Lng', 'Lat']
)
5. 轨迹切片 - traj_slice()
根据给定的时间段切割轨迹。
python
# 已知移动段信息
sliced = tbd.traj_slice(
data,
move, # 包含 stime, etime 的 DataFrame
traj_col=['VehicleNum', 'Time'],
slice_col=['VehicleNum', 'stime', 'etime', 'tripid']
)
6. 停留与移动识别 - traj_stay_move()
识别轨迹中的停留点和移动段。
python
stay, move = tbd.traj_stay_move(
data,
params, # 栅格参数
col=['VehicleNum', 'Time', 'Lng', 'Lat'],
activitytime=1800 # 停留判定时间阈值(秒)
)
7. 轨迹密化 - traj_densify()
在轨迹点之间插值生成更密集的点。
python
data_dense = tbd.traj_densify(
data,
col=['VehicleNum', 'Time', 'Lng', 'Lat'],
timegap=15 # 目标时间间隔(秒)
)
8. 轨迹稀疏化 - traj_sparsify()
降低轨迹采样频率。
python
data_sparse = tbd.traj_sparsify(
data,
col=['VehicleNum', 'Time', 'Lng', 'Lat'],
timegap=60, # 目标时间间隔(秒)
method='subsample' # 'subsample' 或 'interpolate'
)
9. 轨迹转线 - traj_to_linestring()
将轨迹点转换为 GeoDataFrame 线几何。
python
traj_gdf = tbd.traj_to_linestring(
data,
col=['VehicleNum', 'Lng', 'Lat'],
timecol='Time'
)
10. 路网匹配 - traj_mapmatch()
将轨迹匹配到路网。
python
import osmnx as ox
# 获取路网
G = ox.graph_from_place('Shenzhen, China', network_type='drive')
# 路网匹配
matched = tbd.traj_mapmatch(
data,
G,
col=['VehicleNum', 'Time', 'Lng', 'Lat']
)
11. 轨迹长度计算 - traj_length()
计算轨迹总长度(米)。
python
data_with_length = tbd.traj_length(
data,
col=['VehicleNum', 'Time', 'Lng', 'Lat'],
method='Haversine' # 或 'Euclidean'
)
完整示例:出租车轨迹处理流程
python
import pandas as pd
import transbigdata as tbd
# 1. 加载数据
data = pd.read_csv('taxi_gps.csv')
data['Time'] = pd.to_datetime(data['Time'])
# 2. 数据清洗
data = tbd.traj_clean_redundant(data, col=['VehicleNum', 'Time', 'Lng', 'Lat'])
data = tbd.traj_clean_drift(data, col=['VehicleNum', 'Time', 'Lng', 'Lat'],
speedlimit=100, dislimit=1000)
# 3. 轨迹平滑
data = tbd.traj_smooth(data, col=['VehicleNum', 'Time', 'Lng', 'Lat'])
# 4. 生成栅格参数(500米)
bounds = [113.75, 22.4, 114.62, 22.86]
params = tbd.area_to_params(bounds, accuracy=500)
# 5. 停留移动识别
stay, move = tbd.traj_stay_move(data, params,
col=['VehicleNum', 'Time', 'Lng', 'Lat'],
activitytime=1800)
# 6. 转换为轨迹线
traj_gdf = tbd.traj_to_linestring(data, col=['VehicleNum', 'Lng', 'Lat'],
timecol='Time')
# 7. 可视化
traj_gdf.plot(figsize=(10, 10))
使用建议
- •清洗顺序: 先去冗余,再去漂移
- •停留识别:
activitytime通常设为 1800 秒(30分钟) - •路网匹配: 需要先用 OSMnx 获取路网数据
- •密化/稀疏化: 根据分析需求调整
timegap
参考文档
完整文档: https://transbigdata.readthedocs.io/en/latest/traj.html