Марковские процессы принятия решений (MDP) (Markov decision process) – это стохастический процесс управления с дискретным временем. Он обеспечивает математическую основу для моделирования принятия решений в ситуациях, когда результаты частично случайны и частично находятся под контролем лица, принимающего решения. MDP полезны для изучения задач оптимизации, решаемых с помощью динамического программирования и обучения с подкреплением.
[Чесалов А. Ю. Глоссариум по искусственному интеллекту: 2500 терминов/ А. Ю. Чесалов — «Издательские решения» 2022 г., 670 стр.]