7月1日,喻园管理论坛2022年第28期(总第797期)在管理学院119教室成功举行。北京大学光华管理学院副教授彭一杰以“Multi-Agent Deep Reinforcement Learning for Multi-Echelon Inventory Management Problems: Enhancing Profits and Alleviating Bullwhip Effect”为主题,与参会人员进行了交流探讨。本次论坛由现代信息管理研究中心骨干成员、管理学院副院长李建斌教授主持,生产运作与物流管理系邓世名教授、李锋副教授参加本次活动。
彭一杰教授结合文献和讲座主题,带领大家了解了多智能体深度强化学习的实际应用,并且分享了他多年来在人工智能领域的一些经验。彭教授首先介绍了当前库存管理的发展情况和遇到的困难,强调了在后疫情时代背景下,库存管理变得更加复杂,例如单一参与者面临销售损失,多方参与者面临多梯度问题。彭教授分析了产生牛鞭效应的原因,并由此提出了中心化训练和分布式学习方法。随后,彭教授详细分享了串行供应链与供应链网络的模型构建、数值实验和结果,并提出关键算法HAPPO。与单智能体深度强化学习和最先进的启发式策略相比,用HAPPO构建的策略可以获得更高的总体利润,多智能体深度强化学习有助于处理多级库存管理问题、缓解牛鞭效应等。
过程中,与会师生与彭一杰教授关于顾客需求是常量还是随时间变化、智能体对上游与下游的决策和利润是否有影响等问题进行了热烈的讨论。最后,彭一杰教授针对大家关心的人工智能相关研究疑问进行一一解答,强调人工智能领域的热点会在短期发生变化,因此对一个问题的研究要及时。