FUN88乐天使·(中国)集团


0622上海管理论坛第575期（李海涛教授，密苏里大学圣路易斯分校）


创建时间： 2026-06-09 沈洁浏览次数：

题目：Integrating Simulation, Optimization and Reinforcement Learning for Sequential Decision Problems in Supply Chains （融合仿真、优化与强化学习求解供应链序贯决策问题）

演讲人：李海涛教授，密苏里大学圣路易斯分校

主持人：李洪波副教授，FUN88乐天使

时间：2026年6月22日（周一），下午15:00

地点：我司校本部东区1号楼FUN88乐天使420会议室

主办单位：FUN88乐天使、FUN88乐天使青年教师联谊会

演讲人简介：

李海涛教授现任美国密苏里大学圣路易斯分校（University of Missouri – St Louis, UMSL）供应链与数据分析系主任，先进供应链分析实验室创始主任。2005 年获美国密西西比大学运营管理博士学位，2002 年取得该校经济学硕士学位；2000 年于北京航空航天大学工业外贸专业获工学学士学位，辅修航空工程。主要研究方向为优化建模、算法设计及其在供应链领域的应用，研究范畴包含供应链网络设计、供应链架构规划、资源配置、项目调度、车辆路径优化等。其主持科研项目先后获美国交通部、美国国家科学基金会、美国陆军研究办公室资助，同时承接惠普实验室、Express Scripts公司、Ameren集团、Cass信息系统、美国供应链管理协会（ASCM）等多家企业与行业机构横向课题。2015 年荣获密苏里大学圣路易斯分校Douglas Durand杰出科研奖；拥有两项美国专利、多项技术发明备案，先后获评 2015 年度 UMSL 年度发明家、2025 年度校级资深研究员。目前担任《Journal of the Operational Research Society》《Transportation Journal》副主编、《International Journal of Project Management》编委。论文发表于 Transportation Science、European Journal of Operational Research、Decision Sciences、INFORMS Journal on Applied Analytics等知名期刊。

演讲内容简介：

信息技术的迅猛发展以及海量数据的广泛获取，为供应链中的新型商业模式和数据驱动的优化决策支持开辟了发展空间。本报告将首先介绍一类在不确定性条件下的序贯决策问题及其在供应链战略层、战术层和运营层面的应用。随后，将介绍马尔可夫决策过程（MDP）建模框架，以及两种通用的求解策略：开环策略和闭环策略。尽管从理论上讲，闭环策略优于开环策略，但计算最优闭环策略需要求解贝尔曼方程，而对于大规模问题，这会遭遇著名的“维度灾难”。为克服这一计算挑战，我们提出了一种通用的近似动态规划（ADP）框架，融合仿真、优化与强化学习方法，称为 Sim-Opt-RL，为高维 MDP 提供高质量且计算上可行的闭环策略。报告还将展示 Sim-Opt-RL 在随机资源规划和随机资源受限项目调度问题（SRCPSP）中的应用。

欢迎广大师生参加！

下一条：0525上海管理论坛第574期（Marina Dabić教授，杜布罗夫尼克大学）

学院新闻
重要通知
学术活动