Philosophie Lexikon der ArgumenteHome | |||
| |||
Markov-Entscheidungsprozess: Ein Markov-Entscheidungsprozess (MDP) ist ein mathematischer Rahmen für die Modellierung sequentieller Entscheidungsfindung in Umgebungen, in denen die Ergebnisse teilweise zufällig sind und teilweise von einem Entscheidungsträger kontrolliert werden.
MDPs werden durch eine Menge von Zuständen, eine Menge von Aktionen, eine Übergangsfunktion und eine Belohnungsfunktion definiert. Siehe auch Entscheidungen, Entscheidungstheorie, Entscheidungsfindungsprozess, Künstliche Intelligenz._____________Anmerkung: Die obigen Begriffscharakterisierungen verstehen sich weder als Definitionen noch als erschöpfende Problemdarstellungen. Sie sollen lediglich den Zugang zu den unten angefügten Quellen erleichtern. - Lexikon der Argumente. | |||
Autor | Begriff | Zusammenfassung/Zitate | Quellen |
---|---|---|---|
Peter Norvig über Markov-Entscheidungsprozess – Lexikon der Argumente
Norvig I 686 Markov-Entscheidungsprozess/MEP/KI-Forschung /Norvig/Russell: Wie zu erwarten war, haben KI-Forscher MEPs zu aussagekräftigere Repräsentationen weiterentwickelt, die viel größere Probleme als die traditionellen atomaren Darstellungen auf der Basis von Übergangsmatrizen berücksichtigen können. (Vgl. >Sequentielle Entscheidungsfindung/Norvig). Die Verwendung eines dynamischen >Bayesschen Netzes zur Darstellung von Übergangsmodellen war eine naheliegende Idee, aber die Arbeit an faktoriellen MEPs (Boutilier et al., 2000 (1); Koller und Parr, 2000(2); Guestrin et al., 2003b(3)) erweitert die Idee auf strukturierte Darstellungen der Wertfunktion mit nachweisbaren Verbesserungen der Komplexität. Relationale MEPs (Boutilier et al., 2001(4); Guestrin et al., 2003a(5)) gehen einen Schritt weiter und verwenden strukturierte Darstellungen, um Bereiche mit vielen verwandten Objekten zu behandeln. Die Beobachtung, dass ein teilweise beobachtbarer MEP in ein regulären MEP über Belief States umgewandelt werden kann, ist auf Astrom (1965)(6) und Aoki (1965)(7) zurückzuführen. >Sequentielle Entscheidungsfindung/Norvig. Norvig I 687 Markov-Spiele: Spieltheorie und MEPs werden in der Theorie der Markov-Spiele, auch stochastische Spiele genannt, kombiniert (Littman, 1994(8); Hu und Wellman, 1998(9)). Shapley (1953)(10) beschrieb den Algorithmus für die Wertiteration tatsächlich unabhängig von Bellman, aber seine Ergebnisse wurden nicht allgemein geschätzt, vielleicht weil sie im Kontext von Markov-Spielen präsentiert wurden. >Spieltheorie/KI-Forschung. Norvig I 688 Die evolutionäre Spieltheorie (Smith, 1982(11); Weibull, 1995(12)) betrachtet die Strategieverschiebung im Laufe der Zeit: Wenn sich die Strategie des Gegners ändert, wie sollte man dann reagieren? Zu den Lehrbüchern über Spieltheorie aus wirtschaftlicher Sicht gehören die von Myerson (1991)(13), Fudenberg und Tirole (1991)(14), Osborne (2004)(15) und Osborne und Rubinstein (1994)(16); Mailath und Samuelson (2006)(17) konzentrieren sich auf wiederholte Spiele. Aus der Perspektive der KI haben wir Nisan et al. (2007)(18), Leyton-Brown und Shoham (2008)(19) und Shoham und Leyton-Brown (2009)(20). 1. Boutilier, C., Dearden, R., and Goldszmidt, M. (2000). Stochastic dynamic programming with factored representations. AIJ, 121, 49–107. 2. Koller, D. and Parr, R. (2000). Policy iteration for factored MDPs. In UAI-00, pp. 326–334. 3. Guestrin, C., Koller, D., Parr, R., and Venkataraman, S. (2003b). Efficient solution algorithms for factored MDPs. JAIR, 19, 399–468. 4. Boutilier, C., Reiter, R., and Price, B. (2001). Symbolic dynamic programming for first-order MDPs. In IJCAI-01, pp. 467-472. 5. Guestrin, C., Koller, D., Gearhart, C., and Kanodia, N. (2003a). Generalizing plans to new environments in relational MDPs. In IJCAI-03. 6. Astrom, K. J. (1965). Optimal control of Markov decision processes with incomplete state estimation. J. Math. Anal. Applic., 10, 174-205. 7. Aoki, M. (1965). Optimal control of partially observable Markov systems. J. Franklin Institute, 280(5), 367-386. 8. Littman, M. L. (1994). Markov games as a framework for multi-agent reinforcement learning. In ICML-94, pp. 157-163. 9. Hu, J. and Wellman, M. P. (1998). Multiagent reinforcement learning: Theoretical framework and an algorithm. In ICML-98, pp. 242-250. 10. Shapley, S. (1953). Stochastic games. In PNAS, Vol. 39, pp. 1095-1100. 11. Smith, J. M. (1982). Evolution and the Theory of Games. Cambridge University Press. 12. Weibull, J. (1995). Evolutionary Game Theory. MIT Press. 13. Myerson, R. (1991). Game Theory: Analysis of Conflict. Harvard University Press 14. Fudenberg, D. and Tirole, J. (1991). Game theory. MIT Press. 15. Osborne, M. J. (2004). An Introduction to Game Theory. Oxford University Pres. 16. Osborne,M. J. and Rubinstein, A. (1994). A Course in Game Theory. MIT Press. 17. Mailath, G. and Samuelson, L. (2006). Repeated Games and Reputations: Long-Run Relationships. Oxford University Press. 18. Nisan, N., Roughgarden, T., Tardos, E., and Vazirani, V. (Eds.). (2007). Algorithmic Game Theory. Cambridge University Press. 19. Leyton-Brown, K. and Shoham, Y. (2008). Essentials of Game Theory: A Concise, Multidisciplinary Introduction. Morgan Claypool. 20. Shoham, Y. and Leyton-Brown, K. (2009). Multiagent Systems: Algorithmic, Game-Theoretic, and Logical Foundations. Cambridge Univ. Press._____________ Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der ArgumenteDer Hinweis [Begriff/Autor], [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] bzw. "Problem:"/"Lösung", "alt:"/"neu:" und "These:" ist eine Hinzufügung des Lexikons der Argumente. |
Norvig I Peter Norvig Stuart J. Russell Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010 |