沈阳自动化研究所在车间智能调度研究方面取得新进展：可用于动态生产环境下可重构车间的实时优化和智能决策

11 月 21 日消息，据中国科学院官网报道，近日，中国科学院沈阳自动化研究所在车间智能调度方面取得新进展，基于深度强化学习方法，实现了动态订单下可重构车间对动态生产调度和车间重构的实时优化和智能决策。

据介绍，车间调度问题多属于 NP 难问题，传统元启发式算法只能在多项式时间内求得近优解。对大规模问题，元启发式算法的求解时间难以满足动态生产环境下实时决策的需求。

另外，小批量定制化的生产模式，要求车间满足动态可重构。如何对可重构车间的生产调度和车间重构进行实时优化和动态协同是研究难点。

科研人员基于深度强化学习方法，将生产调度和车间重构的决策过程建模为马尔科夫决策过程，建立了调度和重构系统的深度强化学习模型，设计了奖励函数、状态空间和行为空间等。

训练后，决策智能体在求解质量和求解时间上取得了比 2 种元启发式算法（迭代贪婪算法和遗传算法）更优的结果。智能体对单个工件的决策时间仅为 1.47 ms，可用于动态生产环境下可重构车间的实时优化和智能决策。

▲ 基于深度强化学习的智能调度和重构系统架构

了解到，相关研究成果发表在 International Journal of Production Research 上，研究工作得到国家自然科学基金和辽宁省自然科学基金项目的支持。