KDD论文实战:清华×美团如何从老骑手的配送轨迹中"学会"订单合并,午高峰效率提升55% 外卖配送中有一个被低估的效率杠杆:订单合并(Order Pooling)——让一个骑手同时配送多个方向相近的订单。做好了,骑手每小时多送2-3单,平台运力利用率大幅提升;做差了,所有订单都迟到,用户体验崩溃。这个"多对一"匹配问题是NP-hard的,在美团每日7000万单的规模下,实时求解几乎不可能。 来自美团和清华大学的联合团队——梁一乐、赵久夏、李东辉、冯杰、张晨等——提出了一个巧妙的思路:不从理论出发求解最优合并,而是从经验丰富的老骑手(Skilled Couriers)的实际配送轨迹中,学习他们"凭直觉"做到的高效合并模式。这篇论文已部署在美团实际派单系统中,线上测试显示午高峰骑手效率提升45-55%,同时保持了准时送达率。 核心洞察:老骑手是最好的"算法" 这篇论文的出发点极其务实。美团平台上有624万名骑手,每天活跃超过100万。他们之中存在显著的技能分层:经验丰富的老骑手对自己负责区域的商圈布局、电梯等待时间、小区入口位置、甚至不同餐厅的出餐速度都了然于胸。他们在实践中自然发展出了高效的订单合并策略——哪些餐厅的订单可以一起取,哪些小区的订单可以顺路送,这些"隐性知识"蕴含在他们的配送轨迹中。 问题在于:这些知识是非结构化的、个人化的,平台算法无法直接利用。传统的订单合并算法基于简单的距离和时间窗口计算,无法捕捉老骑手所掌握的"环境感知"——比如两个看似距离很远的餐厅,因为都在同一栋商业楼的不同楼层,实际取餐路线极短;或者两个看似方向相反的配送地址,因为骑手知道一条不在导航上的捷径,可以高效合并。 技术方案:从轨迹到图谱——SCDN框架 论文提出的Skilled Courier Delivery Network(SCDN)框架,分三步将老骑手的隐性知识转化为可计算的系统能力: 第一步:构建异构属性网络。将所有老骑手的历史配送轨迹转化为一个图网络——节点代表商圈、餐厅、配送地点,边代表骑手在它们之间的实际移动。边不仅有"是否连接"的二元信息,还携带丰富的属性:移动频率、时间段分布、合并模式(哪些节点经常被同一个骑手在同一趟中访问)。这个网络本质上是对整个城市配送环境的"经验图谱"。 第二步:增强型图注意力网络嵌入(Enhanced GATNE)。论文在GATNE(一种异构网络嵌入方法,源自清华大学此前在KDD发表的工作)基础上进行了针对外卖场景的增强。通过图表示学习,将网络中的每个节点(商圈/地点)编码为低维向量。关键创新在于:这些向量编码了老骑手的"环境知识"——如果两个地点经常被老骑手在同一趟配送中一起访问,它们的向量在嵌入空间中就会很接近,即使地理距离并不近。 第三步:实时剪枝与合并。有了低维向量表示,订单合并的搜索空间被急剧压缩。当新订单到达时,系统只需计算该订单对应地点向量与当前待分配订单向量之间的相似度——这是一个简单的向量运算,可以在毫秒内完成。NP-hard的组合搜索问题被转化为近似最近邻搜索问题,使得高质量的订单合并在实时约束下成为可能。 "规模效应热点":超越订单合并的战略发现 论文的一个额外发现具有重大运营价值。通过分析嵌入向量的聚类模式,系统自动识别出了"Scale-Effect Hotspot Areas"(规模效应热点区域)——这些区域因为商圈密集度高、订单方向趋同性强、配送路线重叠度大,天然适合高密度合并配送。 这个发现的战略意义远超算法层面:平台可以通过运力调度、骑手激励和商户拓展策略,有意识地培育和强化这些热点区域的规模效应。例如,在热点区域增加骑手配额、为该区域商户提供流量倾斜、优化该区域的取餐动线设计。从被动的"发现热点"变为主动的"培育热点",将算法洞察转化为运营策略。 线上部署效果:午高峰效率提升45-55% 与许多停留在仿真实验的学术论文不同,SCDN已经部署在美团的真实派单系统中。线上A/B测试结果: 骑手效率提升45-55%(午高峰时段,11:00-13:00) 订单合并质量和覆盖范围大幅改善——更多订单被成功合并,且合并后的路线更优 准时送达率保持稳定——效率提升没有以牺牲用户体验为代价 所有利益相关方(骑手、消费者、平台)认可 45-55%的效率提升是一个极其惊人的数字。这意味着在午高峰时段,骑手平均每小时可以多完成约一半的配送。按美团每天100万活跃骑手、午高峰2小时计算,系统级的运力释放相当于凭空增加了数十万名骑手的运力——而无需增加任何人力成本。 对物流行业的启示 1. 一线员工的经验是最被低估的数据资产。美团这篇论文的核心思路——从熟练工人的行为中提取知识——适用于任何劳动密集型物流场景。仓库老员工对货位布局的"直觉"、老司机对城市路线的"经验"、资深调度员对突发情况的"预判"——这些隐性知识都可以通过类似的方法转化为系统能力。关键是:先记录行为数据,再提取知识模式。 2. 图表示学习是物流优化的利器。物流网络——无论是配送网络、仓储网络还是供应链网络——天然具有图结构。将网络中的节点和边嵌入低维空间,可以高效捕捉传统方法难以发现的隐含关系。推荐物流企业关注图神经网络(GNN)技术的发展。 3. 运营策略应该从算法洞察中生长。"规模效应热点"的发现展示了一种新的运营方法论:先用数据和算法发现规律,再据此制定运营策略。而非传统的"先拍脑袋定策略,再找数据验证"。这种"数据驱动的运营"思维正在重新定义物流管理的方法论。 4. 实时性是线上部署的第一约束。论文选择线性向量运算而非更复杂的深度模型做实时合并决策,是对工程现实的深刻理解。在每分钟260单的场景下,任何超过100毫秒的计算都意味着延迟和堆积。学术界追求的"最优性能"和工业界需要的"最优性能/延迟比"是两个完全不同的目标。 信息来源:Liang, Y., Zhao, J., Li, D., Feng, J., Zhang, C., Ding, X., Hao, J., & He, R. "Harvesting Efficient On-Demand Order Pooling from Skilled Couriers: Enhancing Graph Representation Learning for Refining Real-time Many-to-One Assignments." KDD (ACM SIGKDD Conference on Knowledge Discovery and Data Mining). | 美团 + 清华大学