Philosophie Lexikon der Argumente

Home Screenshot Tabelle Begriffe

 
Markov-Entscheidungsprozess: Ein Markov-Entscheidungsprozess (MDP) ist ein mathematischer Rahmen für die Modellierung sequentieller Entscheidungsfindung in Umgebungen, in denen die Ergebnisse teilweise zufällig sind und teilweise von einem Entscheidungsträger kontrolliert werden. MDPs werden durch eine Menge von Zuständen, eine Menge von Aktionen, eine Übergangsfunktion und eine Belohnungsfunktion definiert. Siehe auch Entscheidungen, Entscheidungstheorie, Entscheidungsfindungsprozess, Künstliche Intelligenz.

_____________
Anmerkung: Die obigen Begriffscharakterisierungen verstehen sich weder als Definitionen noch als erschöpfende Problemdarstellungen. Sie sollen lediglich den Zugang zu den unten angefügten Quellen erleichtern. - Lexikon der Argumente.

 
Autor Begriff Zusammenfassung/Zitate Quellen

Peter Norvig über Markov-Entscheidungsprozess – Lexikon der Argumente

Norvig I 686
Markov-Entscheidungsprozess/MEP/KI-Forschung /Norvig/Russell: Wie zu erwarten war, haben KI-Forscher MEPs zu aussagekräftigere Repräsentationen weiterentwickelt, die viel größere Probleme als die traditionellen atomaren Darstellungen auf der Basis von Übergangsmatrizen berücksichtigen können. (Vgl. >Sequentielle Entscheidungsfindung/Norvig
). Die Verwendung eines dynamischen >Bayesschen Netzes zur Darstellung von Übergangsmodellen war eine naheliegende Idee, aber die Arbeit an faktoriellen MEPs (Boutilier et al., 2000 (1); Koller und Parr, 2000(2); Guestrin et al., 2003b(3)) erweitert die Idee auf strukturierte Darstellungen der Wertfunktion mit nachweisbaren Verbesserungen der Komplexität. Relationale MEPs (Boutilier et al., 2001(4); Guestrin et al., 2003a(5)) gehen einen Schritt weiter und verwenden strukturierte Darstellungen, um Bereiche mit vielen verwandten Objekten zu behandeln. Die Beobachtung, dass ein teilweise beobachtbarer MEP in ein regulären MEP über Belief States umgewandelt werden kann, ist auf Astrom (1965)(6) und Aoki (1965)(7) zurückzuführen. >Sequentielle Entscheidungsfindung/Norvig.
Norvig I 687
Markov-Spiele: Spieltheorie und MEPs werden in der Theorie der Markov-Spiele, auch stochastische Spiele genannt, kombiniert (Littman, 1994(8); Hu und Wellman, 1998(9)). Shapley (1953)(10) beschrieb den Algorithmus für die Wertiteration tatsächlich unabhängig von Bellman, aber seine Ergebnisse wurden nicht allgemein geschätzt, vielleicht weil sie im Kontext von Markov-Spielen präsentiert wurden. >Spieltheorie/KI-Forschung.
Norvig I 688
Die evolutionäre Spieltheorie (Smith, 1982(11); Weibull, 1995(12)) betrachtet die Strategieverschiebung im Laufe der Zeit: Wenn sich die Strategie des Gegners ändert, wie sollte man dann reagieren? Zu den Lehrbüchern über Spieltheorie aus wirtschaftlicher Sicht gehören die von Myerson (1991)(13), Fudenberg und Tirole (1991)(14), Osborne (2004)(15) und Osborne und Rubinstein (1994)(16); Mailath und Samuelson (2006)(17) konzentrieren sich auf wiederholte Spiele. Aus der Perspektive der KI haben wir Nisan et al. (2007)(18), Leyton-Brown und Shoham (2008)(19) und Shoham und Leyton-Brown (2009)(20).


1. Boutilier, C., Dearden, R., and Goldszmidt, M. (2000). Stochastic dynamic programming with factored representations. AIJ, 121, 49–107.
2. Koller, D. and Parr, R. (2000). Policy iteration for factored MDPs. In UAI-00, pp. 326–334.
3. Guestrin, C., Koller, D., Parr, R., and Venkataraman, S. (2003b). Efficient solution algorithms for factored MDPs. JAIR, 19, 399–468.
4. Boutilier, C., Reiter, R., and Price, B. (2001). Symbolic dynamic programming for first-order MDPs. In
IJCAI-01, pp. 467-472.
5. Guestrin, C., Koller, D., Gearhart, C., and Kanodia, N. (2003a). Generalizing plans to new environments in relational MDPs. In IJCAI-03.
6. Astrom, K. J. (1965). Optimal control of Markov decision processes with incomplete state estimation. J. Math. Anal. Applic., 10, 174-205.
7. Aoki, M. (1965). Optimal control of partially observable Markov systems. J. Franklin Institute,
280(5), 367-386.
8. Littman, M. L. (1994). Markov games as a framework for multi-agent reinforcement learning. In
ICML-94, pp. 157-163.
9. Hu, J. and Wellman, M. P. (1998). Multiagent reinforcement learning: Theoretical framework and an algorithm. In ICML-98, pp. 242-250.
10. Shapley, S. (1953). Stochastic games. In PNAS, Vol. 39, pp. 1095-1100.
11. Smith, J. M. (1982). Evolution and the Theory of Games. Cambridge University Press.
12. Weibull, J. (1995). Evolutionary Game Theory. MIT Press.
13. Myerson, R. (1991). Game Theory: Analysis of Conflict. Harvard University Press
14. Fudenberg, D. and Tirole, J. (1991). Game theory. MIT Press.
15. Osborne, M. J. (2004). An Introduction to Game Theory. Oxford University Pres.
16. Osborne,M. J. and Rubinstein, A. (1994). A Course in Game Theory. MIT Press.
17. Mailath, G. and Samuelson, L. (2006). Repeated Games and Reputations: Long-Run Relationships.
Oxford University Press.
18. Nisan, N., Roughgarden, T., Tardos, E., and Vazirani, V. (Eds.). (2007). Algorithmic Game Theory.
Cambridge University Press.
19. Leyton-Brown, K. and Shoham, Y. (2008). Essentials of Game Theory: A Concise, Multidisciplinary
Introduction. Morgan Claypool.
20. Shoham, Y. and Leyton-Brown, K. (2009). Multiagent Systems: Algorithmic, Game-Theoretic, and
Logical Foundations. Cambridge Univ. Press.

_____________
Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der Argumente
Der Hinweis [Begriff/Autor], [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] bzw. "Problem:"/"Lösung", "alt:"/"neu:" und "These:" ist eine Hinzufügung des Lexikons der Argumente.

Norvig I
Peter Norvig
Stuart J. Russell
Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010

Send Link

Autoren A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Y   Z  


Begriffe A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Z