美团如何用动态奖金分配降低 25% 订单取消率？华科团队 K

一、研究背景：即时配送平台的订单取消危机

随着电子商务的爆炸式增长，在线外卖配送已成为我们日常生活中不可或缺的服务。以美团为例，这个中国最大的外卖平台每天处理 3000 万份订单。平台的目标是为餐厅和顾客提供优质且稳定的服务，但现实却面临着严峻挑战：每天约有 16.5 万份订单因无人接单而被取消，这类”NA 取消订单”（No-Accept canceled orders）占美团每日负面评价的 55% 以上。

订单取消带来的损失是全方位的：对顾客而言，等待落空导致复购率下降；对骑手而言，意味着收入减少；对餐厅而言，食材浪费造成直接经济损失；对平台而言，每年因 NA 取消订单需向餐厅赔偿的食材成本高达数十亿元人民币。更严重的是，每天约 3 万条负面评价中，超过 55% 源于订单无人接单，这直接损害平台的品牌声誉和长期竞争力。

分析历史数据发现，NA 取消订单主要由两类原因导致：第一，配送价格对骑手缺乏吸引力，尽管骑手数量充足；第二，极端天气等情况下骑手供应不足。本研究聚焦于第一类问题——如何通过奖金激励让骑手更愿意接单。美团现行的做法是基于经验规则分配奖金，例如 10 分钟未接单给 3 元，20 分钟未接单给 6 元。这种方法虽然简单易行，但存在明显缺陷：对所有订单一刀切，缺乏全局优化，无法实现补贴资金的最大化效用。

二、问题定义：多阶段奖金分配的形式化建模

外卖订单的生命周期可被划分为多个决策阶段。以美团为例，订单从生成到最终交付或取消，最多经历 50 分钟，平台将其划分为多个时间窗口（如每 5 分钟一个阶段）。在每个阶段，订单可能处于三种状态之一：被骑手接单、被顾客取消、或进入下一阶段。若在 50 分钟内仍无人接单，平台将强制取消订单。

本研究的核心问题是：在每月奖金预算固定的前提下，如何为每个订单的每个阶段分配合适的奖金金额，以最大化被接单的订单数量？这是一个典型的多阶段预算分配问题，具有以下数学特征：

目标函数：最大化期望接单订单数

$$max sum_{i=1}^{N} sum_{t=1}^{T} p_i(b_{i,t}) cdot (1-q_{i,t}) cdot prod_{k=1}^{t-1}(1-p_i(b_{i,k})-q_{i,k})$$

其中，$N$ 为订单总数，$T$ 为阶段数，$p_i(b_{i,t})$ 为订单$i$在阶段$t$分配奖金$b_{i,t}$时的接单概率，$q_{i,t}$ 为该阶段的取消概率。

约束条件：总奖金预算不超过上限

$$sum_{i=1}^{N} sum_{t=1}^{T} b_{i,t} cdot I(text{订单}itext{在阶段}ttext{被接单}) leq B$$

其中$B$为月度预算，$I(cdot)$为指示函数。

该问题面临三大挑战：第一，接单概率与奖金的关系未知，需要从历史数据中学习；第二，订单是实时到达的，无法预先获知整月订单集合；第三，每个订单的奖金决策必须在毫秒级完成，对算法效率要求极高。

三、方法论：MSBA 框架的四大核心组件

研究团队提出了多阶段奖金分配（Multi-Stage Bonus Allocation, MSBA）框架，包含四个核心组件：接单与取消预测模型、基于拉格朗日对偶的动态规划算法（LDDP）、在线分配算法、以及周期性控制策略。

1. 半黑盒接单概率模型：该模型用于预测奖金金额与接单概率之间的关系。研究团队采用半黑盒建模方法，结合了机器学习的数据驱动优势与经济学理论的可解释性。具体而言，模型假设接单概率随奖金增加而单调递增，但边际效应递减，符合经济学中的边际效用递减规律。通过历史数据拟合，模型能够准确预测不同奖金水平下的接单概率。

2. XGBoost 取消概率预测：每个订单在每个阶段的取消概率由 XGBoost 模型预测。特征包括：订单已等待时长、餐厅出餐速度历史、当前时段、天气状况、顾客历史取消率等。该模型在离线实验中达到 0.85 的 AUC 值，能够准确识别高取消风险订单。

3. 拉格朗日对偶动态规划（LDDP）：这是 MSBA 框架的核心算法。研究团队将原问题转化为拉格朗日对偶问题，通过动态规划离线计算每个阶段的最优拉格朗日乘子。该乘子本质上是预算的”影子价格”，反映了每增加一元预算能带来的期望接单数增量。在线决策时，算法只需根据当前订单的特征和阶段，查表获取对应的拉格朗日乘子，即可快速计算最优奖金。

4. 周期性控制策略：为应对订单到达的随机性，研究团队设计了周期性控制策略。每月初根据剩余预算和预期订单量调整拉格朗日乘子，确保预算在全月均匀使用，避免月初花光、月末无钱可用的情况。

与 Zhao et al. (2021) 的单阶段营销预算分配研究相比，本研究的创新在于处理了多阶段决策的复杂性。订单在每个阶段的状态转移引入了时序依赖，使得传统单阶段方法不再适用。

四、实验验证：离线实验与在线 A/B 测试的双重证明

离线实验设计：研究团队使用美团 2021 年 3 月的真实订单数据进行验证，包含约 9 亿份订单。实验将数据按时间划分为训练集（前 3 周）和测试集（后 1 周）。基线方法包括：(1) 美团现行的经验规则法；(2) 平均分配法（每单每阶段固定金额）；(3) 贪婪算法（每阶段独立优化）。

主要结果：MSBA 框架在多个指标上显著优于基线方法。在相同预算下，MSBA 比经验规则法多接单 18.7%，比平均分配法多接单 31.2%。若以达到相同接单数为目标，MSBA 可节省 34.5% 的预算。进一步分析发现，MSBA 的优势主要体现在长尾订单上——那些在现行规则下容易因无人接单而被取消的订单。

消融实验：研究团队对各组件进行了消融分析。移除 LDDP 算法后，性能下降 12.3%；移除周期性控制策略后，预算使用不均衡，月末出现资金短缺，性能下降 8.7%；使用简化的线性概率模型替代半黑盒模型后，性能下降 6.5%。这些结果验证了各组件的必要性。

在线 A/B 测试：2021 年 4 月，美团在 5 个城市进行了为期两周的在线 A/B 测试。实验组使用 MSBA 框架，对照组使用现行经验规则。结果显示：实验组的 NA 取消订单数减少 25.3%，餐厅赔偿成本降低 31.7%，顾客满意度提升 4.2 个百分点。基于这一显著效果，MSBA 框架已于 2021 年 6 月在全美团平台上线。

五、批评与局限：学术研究的理性审视

尽管 MSBA 框架取得了显著成效，但作为严谨的学术研究，我们必须理性看待其局限性。

1. 研究假设的局限性：本研究聚焦于”骑手充足但价格缺乏吸引力”的场景，明确排除了极端天气等骑手供应不足的情况。在现实中，这两类问题常常交织出现。当骑手严重短缺时，单纯提高奖金可能无法解决问题，反而推高平台成本。此外，模型假设骑手是理性经济人，会基于奖金最大化自身收益，但实际决策可能受路线熟悉度、个人偏好等非经济因素影响。

2. 方法论的边界条件：LDDP 算法的计算复杂度为 O(1)，满足实时性要求，但这是以离线预计算为代价的。当业务场景发生重大变化（如新城市拓展、订单模式剧变）时，需要重新训练模型，存在适应滞后性。此外，半黑盒模型假设接单概率随奖金单调递增，但在极高奖金水平下可能出现饱和甚至下降（骑手怀疑订单有问题），这一非线性效应未被建模。

3. 实验设计的不足：离线实验使用历史数据，存在选择偏差——只能观察到实际分配的奖金及其结果，无法获知”反事实”情况（若当时分配不同奖金会怎样）。虽然研究团队采用逆倾向评分加权等方法缓解这一问题，但无法完全消除偏差。在线 A/B 测试仅在 5 个城市进行，样本代表性有限，且测试期仅两周，长期效果（如骑手形成奖金预期后的行为变化）未知。

4. 外部效度问题：本研究基于中国最大外卖平台的数据，结论能否推广到其他场景存疑。例如，欧美外卖平台（如 UberEats、DoorDash）的骑手多为兼职，决策模式可能不同；生鲜配送、快递物流等场景的时效性要求不同，奖金敏感度也可能不同。此外，研究未考虑竞争平台的影响——若竞争对手同时提高补贴，本平台的相对吸引力可能下降。

六、实操启示：供应链从业者的实施指南

对于希望借鉴 MSBA 框架的供应链和物流从业者，以下是具体的实施路径和建议。

1. 技术复现路径：

数据准备：需要至少 3 个月的历史订单数据，包含字段：订单 ID、生成时间、餐厅位置、顾客位置、各阶段奖金金额、是否接单、接单时间、是否取消、取消原因等。数据量建议不低于 100 万单，以确保模型训练的统计显著性。
技术栈推荐：Python 3.8+（数据处理）、XGBoost 1.5+（取消概率预测）、PyTorch 1.9+（接单概率模型，可选）、Redis（在线查表缓存）。服务器配置建议：16 核 CPU、64GB 内存，可支持每秒 10 万 + 次奖金决策请求。
实施步骤：第一步，清洗历史数据，剔除异常值（如测试订单、内部订单）；第二步，训练接单概率模型，验证单调性假设；第三步，训练 XGBoost 取消概率模型，AUC 目标≥0.8；第四步，运行 LDDP 算法生成拉格朗日乘子表；第五步，部署在线服务，集成到订单系统；第六步，设置 A/B 测试，验证效果后全量上线。

2. 实施成本与 ROI 估算：

开发成本：需要 1 名算法工程师（3 个月）、1 名后端工程师（2 个月）、1 名数据工程师（1 个月）。按一线城市薪资估算，人力成本约 80-120 万元人民币。
运维成本：服务器成本约 2-3 万元/月，模型每月重训需额外 1 万元计算资源。
预期收益：以外卖平台为例，若月订单取消损失为 1000 万元（含赔偿 + 声誉损失），MSBA 可减少 25% 取消，即月收益 250 万元。扣除奖金成本增加（约 100 万元），净收益约 150 万元/月。投资回收期约 6-8 个月。

3. 适用场景与企业类型：

高适用场景：即时配送（外卖、生鲜、药品）、网约车调度、共享经济平台（如共享充电宝）、动态定价零售（如临期商品折扣）。
企业规模建议：日订单量 10 万 + 的中大型企业更适合。小型企业订单量少，历史数据不足，模型效果有限，建议采用简化版规则。
不适用场景：订单取消成本低的场景（如免费取消政策）、骑手/司机完全专职且供应充足的场景、监管严格禁止动态定价的行业。

4. 实施风险与应对：

骑手博弈风险：骑手可能学会”等待更高奖金”的策略，故意延迟接单。应对：设置奖金上限，引入随机性，避免形成稳定预期。
公平性质疑：相同订单在不同时间/地点获得不同奖金，可能引发骑手不满。应对：透明化规则（如公布奖金计算公式），设置保底奖金。
系统稳定性风险：在线服务故障可能导致奖金决策中断。应对：设置降级策略（故障时切换为固定规则），多活部署，实时监控。

七、论文引用

中文标题：外卖平台多阶段奖金分配框架

原文标题：A Framework for Multi-stage Bonus Allocation in Meal Delivery Platform

作者：

中文：吴卓林（美团集团）、王立（华中科技大学）、黄方盛、周林军、宋宇、叶成鹏、聂鹏宇、任浩、郝景华、何仁庆、孙志钊（美团集团）
英文：Zhuolin Wu (Meituan Group), Li Wang (Huazhong University of Science and Technology), Fangsheng Huang, Linjun Zhou, Yu Song, Chengpeng Ye, Pengyu Nie, Hao Ren, Jinghua Hao, Renqing He, Zhizhao Sun (Meituan Group)

发表 venue：

会议：28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD ’22)
时间：2022 年 8 月 14-18 日
地点：Washington, USA
出版社：ACM

链接：

DOI: 10.1145/3534678.3539042
arXiv: https://arxiv.org/abs/2202.10695
ACM 数字图书馆：https://dl.acm.org/doi/10.1145/3534678.3539042

影响力：

Google Scholar 引用：截至 2026 年 2 月，约 180 次引用
工业界应用：已在中国最大外卖平台全量上线，日均处理 3000 万订单
奖项：KDD 2022 应用数据科学轨道杰出论文提名

探索

物流领域

地区

美团如何用动态奖金分配降低 25% 订单取消率？华科团队 KDD 2022 研究详解

Related Posts

美团多阶段奖金分配框架落地：日均订单取消量下降超25%

奖金如何说话：美团KDD论文揭示多阶段激励如何将订单取消率降低25%

当不确定性成为生产力：清华-美团研究揭示即时配送服务时间的概率建模革命

泰国重卡电动化破冰：U POWER交付30台换电重卡背后的供应链重构逻辑

无人机+骑手的“空地协同时代”来了？——港科大新研究揭示外卖低空配送的效益边界与战略逻辑

多阶段奖金分配框架在餐饮外卖平台中的应用

发表回复取消回复

Recommended

DP World 扩建富查伊拉港，18个月内投用新集装箱码头

2026全球供应链软件选型指南：AI驱动、云原生与韧性成三大核心趋势

AI如何彻底重塑供应商风险管理：2026年采购专业人士的深度洞察

DHL 上调全年利润预测至 65 亿欧元，空运溢价贡献 1.71 亿美元

SCI.AI

Categories

Welcome Back!

Create New Account!

Retrieve your password

微信扫码分享

Add New Playlist

探索