Philosophie Lexikon der ArgumenteHome![]() | |||
| |||
Sequentielle Entscheidung: Sequentielle Entscheidungsfindung in der KI ist der Prozess des Treffens von Entscheidungen im Laufe der Zeit, wobei die Konsequenzen jeder Entscheidung berücksichtigt werden. Dazu muss der KI-Agent in der Lage sein, die Welt und ihre Dynamik zu modellieren und über die möglichen Ergebnisse seiner Handlungen nachzudenken. Siehe auch Entscheidungsprozesse, Entscheidungsbaum, Entscheidungsnetzwerke, Entscheidungen, Entscheidungstheorie, Software-Agenten, Künstliche Intelligenz._____________Anmerkung: Die obigen Begriffscharakterisierungen verstehen sich weder als Definitionen noch als erschöpfende Problemdarstellungen. Sie sollen lediglich den Zugang zu den unten angefügten Quellen erleichtern. - Lexikon der Argumente. | |||
Autor | Begriff | Zusammenfassung/Zitate | Quellen |
---|---|---|---|
KI-Forschung über Sequentielle Entscheidungen - Lexikon der Argumente
Norvig I 645 Sequentielle Entscheidungen/KI-Forschung/Norvig/Russell: [Hier geht es um] die rechnerischen Fragen, die bei der Entscheidungsfindung in einer stochastischen Umgebung auftreten. Sequentielle Entscheidungsprobleme beziehen Hilfsmittel, Unsicherheit und Sensorik ein und schließen Such- und Planungsprobleme als Sonderfälle ein. >Planung/KI-Forschung, >Entscheidungsnetzwerke/KI-Forschung, >Entscheidungstheorie/Norvig, >Nutzen/Norvig, >Nutzentheorie/Norvig, >Umgebung/KI-Forschung, >Multiattribute Nutzentheorie/KI-Forschung. Norvig I 649 Optimal Policy: Die optimal policy für einen endlichen Horizont ist nichtstationär. Ohne eine festgesetztes Zeitlimit gibt es hingegen keinen Grund, sich im gleichen Zustand zu verschiedenen Zeiten unterschiedlich zu verhalten. Daher hängt die optimale Handlung nur vom aktuellen Zustand ab, und die optimal policy ist stationär. Zustände: In der Terminologie der Multiattributiven Nutzentheorie kann jeder Zustand si als ein Attribut der Zustandsfolge [s0, s1, s2 ...] betrachtet werden. >Werte/KI-Forschung. Norvig I 684 Sequentielle Entscheidungsprobleme in unsicheren Umgebungen, auch Markov-Entscheidungsprozesse oder MEPs genannt, werden durch ein Übergangsmodell definiert, das die probabilistischen Ergebnisse von Handlungen und eine Belohnungsfunktion angibt, die die Belohnung in jedem Zustand spezifiziert. Norvig I 685 Richard Bellman entwickelte die Ideen, die der modernen Herangehensweise an sequentielle Entscheidungsprobleme zugrunde liegen, während er ab 1949 bei der RAND Corporation arbeitete. (...) Bellmans Buch "Dynamic Programming" (1957)(1) gab dem neuen Gebiet eine solide Grundlage und führte die grundlegenden algorithmischen Ansätze ein. Ron Howards Doktorarbeit (1960)(2) führte die Policy Iteration und die Idee einer durchschnittlichen Belohnung für die Lösung von Problemen mit unendlichen Horizonten ein. Mehrere zusätzliche Ergebnisse wurden von Bellman und Dreyfus (1962)(3) vorgestellt. Die modifizierte Policy Iteration geht auf van Nunen (1976)(4) und Puterman und Shin (1978)(5) zurück. Die asynchrone Policy Iteration wurde von Williams und Baird (1993)(6) analysiert (...). Die Analyse der Diskontierung im Hinblick auf stationäre Präferenzen geht auf Koopmans (1972)(7) zurück. Die Texte von Bertsekas (1987)(8), Puterman (1994)(9) und Bertsekas und Tsitsiklis (1996)(10) bieten eine rigorose Einführung in sequentielle Entscheidungsprobleme. Papadimitriou und Tsitsiklis (1987)(11) beschreiben Ergebnisse zur Rechenkomplexität von MEPs. Bahnbrechende Arbeiten von Sutton (1988)(12) und Watkins (1989)(13) über Methoden des Verstärkungslernens zur Lösung von MEPs spielten eine wichtige Rolle bei der Einführung von MEPs in die KI-Community, ebenso wie die spätere Untersuchung von Barto et al. (1995)(14). >Markov-Entscheidungsprozesse/Norvig. 1. Bellman, R. E. (1957). Dynamic Programming. Princeton University Press 2. Howard, R. A. (1960). Dynamic Programming and Markov Processes. MIT Press. 3. Bellman, R. E. and Dreyfus, S. E. (1962). Applied Dynamic Programming. Princeton University Press. 4. van Nunen, J. A. E. E. (1976). A set of successive approximation methods for discounted Markovian decision problems. Zeitschrift fur Operations Research, Serie A, 20(5), 203–208. 5. Puterman, M. L. and Shin, M. C. (1978). Modified policy iteration algorithms for discounted Markov decision problems. Management Science, 24(11), 1127-1137. 6. Williams, R. J. and Baird, L. C. I. (1993). Tight performance bounds on greedy policies based on imperfect value functions. Tech. rep. NU-CCS-93-14, College of Computer Science, Northeastern University. 7. Koopmans, T. C. (1972). Representation of preference orderings over time. In McGuire, C. B. and Radner, R. (Eds.), Decision and Organization. Elsevier/North-Holland. 8. Bertsekas, D. (1987). Dynamic Programming: Deterministic and Stochastic Models. Prentice-Hall. 9. Puterman, M. L. (1994). Markov Decision Processes: Discrete Stochastic Dynamic Programming. Wiley 10. Bertsekas, D. and Tsitsiklis, J. N. (1996). Neurodynamic programming. Athena Scientific. 11. Papadimitriou, C. H. and Tsitsiklis, J. N. (1987). The complexity of Markov decision processes. Mathematics of Operations Research, 12(3), 441-450. 12. Sutton, R. S. (1988). Learning to predict by the methods of temporal differences. Machine Learning, 3, 9-44. 13. Watkins, C. J. (1989). Models of Delayed Reinforcement Learning. Ph.D. thesis, Psychology Department, Cambridge University. 14. Barto, A. G., Bradtke, S. J., and Singh, S. P. (1995). Learning to act using real-time dynamic programming. AIJ, 73(1), 81-138._____________ Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der ArgumenteDer Hinweis [Begriff/Autor], [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] bzw. "Problem:"/"Lösung", "alt:"/"neu:" und "These:" ist eine Hinzufügung des Lexikons der Argumente. |
KI-Forschung
Norvig I Peter Norvig Stuart J. Russell Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010 |