Processo de decisão de Markov

Processo de decisão de Markov (PDM), nome que provém das cadeias de Markov, conceito desenvolvido pelo matemático russo Andrei Markov, também chamado de programa dinâmico estocástico ou problema de controle estocástico, é um modelo para tomada de decisão sequencial quando os resultados são incertos.^[1]

Originários da pesquisa operacional na década de 1950,^[2]^[3] os PDMs ganharam reconhecimento em uma variedade de campos, incluindo ecologia, economia, saúde, telecomunicações e aprendizagem por reforço,^[4] que utiliza a estrutura PDM para modelar a interação entre um agente de aprendizagem e seu ambiente. Nessa estrutura, a interação é caracterizada por estados, ações e recompensas. A estrutura do PDM foi projetada para fornecer uma representação simplificada dos principais elementos dos desafios da inteligência artificial. Esses elementos abrangem a compreensão de causa e efeito, a gestão da incerteza e do não determinismo e a busca de objetivos explícitos.^[4]

Referências

↑ Puterman, Martin L. (1994). Markov decision processes: discrete stochastic dynamic programming. Col: Wiley series in probability and mathematical statistics. Applied probability and statistics section. New York: Wiley. ISBN 978-0-471-61977-2
↑ Schneider, S.; Wagner, D. H. (26 de fevereiro de 1957). «Error detection in redundant systems». Papers presented at the February 26-28, 1957, western joint computer conference: Techniques for reliability on - IRE-AIEE-ACM '57 (Western). New York, NY, USA: Association for Computing Machinery. pp. 115–121. ISBN 978-1-4503-7861-1. doi:10.1145/1455567.1455587
↑ Bellman, Richard (1 de setembro de 1958). «Dynamic programming and stochastic control processes». Information and Control. 1 (3): 228–239. ISSN 0019-9958. doi:10.1016/S0019-9958(58)80003-0
↑ ^a ^b Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement learning: an introduction. Col: Adaptive computation and machine learning series 2nd ed. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03924-6

[1] Puterman, Martin L. (1994). Markov decision processes: discrete stochastic dynamic programming. Col: Wiley series in probability and mathematical statistics. Applied probability and statistics section. New York: Wiley. ISBN 978-0-471-61977-2

[2] Schneider, S.; Wagner, D. H. (26 de fevereiro de 1957). «Error detection in redundant systems». Papers presented at the February 26-28, 1957, western joint computer conference: Techniques for reliability on - IRE-AIEE-ACM '57 (Western). New York, NY, USA: Association for Computing Machinery. pp. 115–121. ISBN 978-1-4503-7861-1. doi:10.1145/1455567.1455587

[3] Bellman, Richard (1 de setembro de 1958). «Dynamic programming and stochastic control processes». Information and Control. 1 (3): 228–239. ISSN 0019-9958. doi:10.1016/S0019-9958(58)80003-0

[:0-4] Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement learning: an introduction. Col: Adaptive computation and machine learning series 2nd ed. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03924-6

[1]

[2]

[3]

[4]