## 研究背景
随着在线外卖行业的爆发式增长,外卖配送已成为日常生活中不可或缺的服务。以中国最大的外卖平台美团为例,其日均处理约3000万笔外卖订单。然而,在庞大的订单量背后,平台每天面临着约16.5万笔因无骑手接单而被取消的订单(论文中称为”NA-canceled orders”,即No-Accept取消订单)。这些未被接单的订单不仅意味着骑手收入减少、餐厅食材浪费,还严重损害了平台的用户口碑——美团每天收到约3万条差评,其中超过55%与订单无人接单有关。更为严峻的是,平台每年需要为因订单取消导致的餐厅食材浪费支付高达数十亿元人民币的赔偿费用。
面对这一挑战,业务管理者会划拨一定的专项资金,以奖励(bonus)的方式激励众包骑手接受更多订单。然而,传统的奖励分配方式较为粗放——例如订单超过10分钟未被接单则补贴3元,超过20分钟则补贴6元。这种”一刀切”的经验规则对所有订单采用相同的补贴标准,缺乏全局性的规划和优化,导致补贴资金使用效率低下。订单在其生命周期内会经历多个决策阶段,每个阶段订单可能被接单、被消费者取消或进入下一阶段。如果超过50分钟仍无骑手接单,平台将强制取消该订单。因此,如何在有限的预算约束下,通过多阶段的智能奖励分配策略来最大化骑手接单数量,成为了一个亟待解决的实际业务问题。本文正是在这一背景下,提出了一个多阶段奖励分配(Multi-Stage Bonus Allocation, MSBA)框架,旨在为外卖配送平台提供系统化的奖励分配解决方案。
## 方法论解读
本文提出的MSBA框架由四个核心组件构成:半黑箱接单概率模型、基于拉格朗日对偶的动态规划(LDDP)算法、在线分配算法以及周期性控制策略。整个框架的设计思路是先通过离线计算获取关键参数,再利用这些参数在线实时做出奖励分配决策。
半黑箱接单概率模型是整个框架的基础。该模型采用逻辑回归(logistic function)的形式来描述奖励金额与骑手接单概率之间的关系。模型的输入特征分为两部分:一是奖励金额本身,二是订单的上下文特征(如餐厅和顾客的地理位置、订单已等待时间、预计送达时间ETA、区域供需关系、周边骑手数量等)。模型中的关键参数α和β通过神经网络学习获得,其中α控制奖励对接单概率的影响程度,β反映订单本身的基础接单概率。值得注意的是,由于实际中只有少数订单会获得奖励补贴,训练样本分布极不均衡,研究者巧妙地将训练集划分为”奖励批次”(bonus>0的样本)和”普通批次”(bonus=0的样本),并使用不同的隐藏层分别更新参数,有效解决了样本不平衡问题。此外,取消概率则通过经典的XGBoost模型进行预测。
基于拉格朗日对偶的动态规划(LDDP)算法是框架的核心骨干。该算法将原始的非线性非凸多阶段优化问题分解为两个子问题:首先通过动态规划将总预算分配到各个阶段,然后在每个阶段内利用拉格朗日对偶理论计算每个订单的最优奖励。具体而言,研究者通过变量替换将原始的非凸问题转化为等价的凸优化问题,再利用二分法(Bisection Algorithm)求解拉格朗日乘子。通过对历史数据的离线计算,算法为每个分配阶段确定一个最优的经验拉格朗日乘子λ*,这些乘子包含了全局预算约束下各阶段的最优分配策略信息。










