Algebraische Analyse von approximativem Reinforcement Lernen
Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen:
https://osnadocs.ub.uni-osnabrueck.de/handle/urn:nbn:de:gbv:700-2005080114
https://osnadocs.ub.uni-osnabrueck.de/handle/urn:nbn:de:gbv:700-2005080114
Titel: | Algebraische Analyse von approximativem Reinforcement Lernen |
Autor(en): | Merke, Artur |
Erstgutachter: | Prof. Dr. Martin Riedmiller |
Zweitgutachter: | Prof. Dr. Barbara Hammer |
Zusammenfassung: | Die Arbeit beschäftigt sich mit Konvergenz- und Stabilitätseigenschaften von Verfahren des Reinforcement Lernens mit Funktionsapproximation. Besonderer Schwerpunkt wird dabei auf die Analyse des TD[0] Lernens gelegt, welches als unendliches Produkt von Matrizen aufgefasst wird. Damit kann man eine Klasse von Approximatoren festlegen, welche für das TD[0] Lernen geeignet ist. Im Allgemeinen ist eine solche Analyse aber schwer durchzuführen (Unentscheidbarkeit der Beschränktheit von unendlichen Matrixprodukten). Um eine breitere Klasse von Approximatoren untersuchen zu können, wird das so genannte synchrone TD[0] Lernen vollständig analysiert (inklusive Aussagen über Konvergenzgeschwindigkeit). Es wird aufgezeigt, dass die Divergenz des synchronen TD[0] Lernens die Divergenz des normalen (asynchronen) TD[0] Lernens impliziert. Es werden verschiedene Klassen von Approximatoren sowie andere Bedingungen für die Stabilität des synchronen TD[0] Lernens untersucht. Eine Anwendung der erzielten Resultate auf gitterbasierte Approximatoren schliesst die Arbeit ab. |
URL: | https://osnadocs.ub.uni-osnabrueck.de/handle/urn:nbn:de:gbv:700-2005080114 |
Schlagworte: | Reinforcement Lernen; Maschinelles Lernen; Funktionsapproximation |
Erscheinungsdatum: | 1-Aug-2005 |
Einreichungsdatum: | 1-Aug-2005 |
Publikationstyp: | Dissertation oder Habilitation [doctoralThesis] |
Enthalten in den Sammlungen: | FB06 - E-Dissertationen |
Dateien zu dieser Ressource:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
E-Diss445_thesis.pdf | Präsentationsformat | 610,58 kB | Adobe PDF | E-Diss445_thesis.pdf Öffnen/Anzeigen |
Alle Ressourcen im Repositorium osnaDocs sind urheberrechtlich geschützt, soweit nicht anderweitig angezeigt. rightsstatements.org