Reinforcement learning und support vector machines: eine Übersicht
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Buch |
Sprache: | German |
Veröffentlicht: |
Saarbrücken
VDM-Verl., Müller
2008
|
Schlagworte: | |
Online-Zugang: | Inhaltsverzeichnis |
Beschreibung: | 101 S. Ill., graph. Darst. |
ISBN: | 9783639078558 |
Internformat
MARC
LEADER | 00000nam a2200000 c 4500 | ||
---|---|---|---|
001 | BV035804505 | ||
003 | DE-604 | ||
005 | 20100122 | ||
007 | t | ||
008 | 091103s2008 ad|| |||| 00||| ger d | ||
020 | |a 9783639078558 |9 978-3-639-07855-8 | ||
035 | |a (OCoLC)316294994 | ||
035 | |a (DE-599)BSZ302303073 | ||
040 | |a DE-604 |b ger | ||
041 | 0 | |a ger | |
049 | |a DE-91 |a DE-739 | ||
084 | |a ST 300 |0 (DE-625)143650: |2 rvk | ||
084 | |a DAT 700f |2 stub | ||
100 | 1 | |a Mulzer, Florian |e Verfasser |4 aut | |
245 | 1 | 0 | |a Reinforcement learning und support vector machines |b eine Übersicht |c Florian Mulzer |
264 | 1 | |a Saarbrücken |b VDM-Verl., Müller |c 2008 | |
300 | |a 101 S. |b Ill., graph. Darst. | ||
336 | |b txt |2 rdacontent | ||
337 | |b n |2 rdamedia | ||
338 | |b nc |2 rdacarrier | ||
650 | 0 | 7 | |a Support-Vektor-Maschine |0 (DE-588)4505517-8 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Bestärkendes Lernen |g Künstliche Intelligenz |0 (DE-588)4825546-4 |2 gnd |9 rswk-swf |
689 | 0 | 0 | |a Bestärkendes Lernen |g Künstliche Intelligenz |0 (DE-588)4825546-4 |D s |
689 | 0 | |5 DE-604 | |
689 | 1 | 0 | |a Support-Vektor-Maschine |0 (DE-588)4505517-8 |D s |
689 | 1 | |5 DE-604 | |
856 | 4 | 2 | |m Digitalisierung UB Passau |q application/pdf |u http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=018663575&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |3 Inhaltsverzeichnis |
999 | |a oai:aleph.bib-bvb.de:BVB01-018663575 |
Datensatz im Suchindex
_version_ | 1804140751938912256 |
---|---|
adam_text | Inhaltsverzeichnis
1 Reinforcement-Learning 4
1.1 Informelle Beschreibung des Reinforcement-Learning-Problems . 4
1.2 Analogie zum menschlichen Lernen................ 5
1.3 Elemente des Reinforcement-Learning ............... 6
1.4 Ein einfaches
Grid-
World-Beispiel................. 10
1.5 Return................................ 11
1.6 Die Markov-Eigenschaft...................... 12
1.7 Markovscher Entscheidungsprozeß................. 13
1.8 Wertefunktionen........................... 13
1.9 Bestimmen einer optimalen
Policy
................. 15
1.10 Reinforcement-Learning-Probleme lösen.............. 16
1.10.1 Lösen eines linearen Gleichungssystems/dynamisches
Programmieren....................... 16
1.10.2 Monte-Carlo-Methoden.................. 19
1.10.3 Temporal-Difference-Methoden............. . 21
1.10.4 Zusammenfassung der Lösungsmöglichkeiten....... 28
1.10.5 Anmerkungen........................ 28
1.10.6 Schwierigkeiten beim Reinforcement-Learning...... 29
2 Reinforcement-Learning mit überwachten Lernverfahren kombinie¬
ren 30
2.1 Allgemeines............................. 30
2.1.1 Überwachte Lernverfahren................. 30
2.1.2 Einsatz beim Reinforcement-Learning........... 31
2.1.3 Supportvektor-Maschinen................ . 31
2.1.4 Binäre Klassifikation.................... 32
2.1.5 Optimierungsprobleme überführen ............. 34
2.1.6 Anwendung bei der Supportvektor-Klassifikation ..... 37
2.2 Regression.............................. 40
2.2.1 Kernfunktionen....................... 45
2.3 Lösen des Optimierungsproblems via Gradientenabstieg ..... 48
2.4
TD(0)
und SV-Regression mit wenigen Eingabedaten
(Sparse
SV-
Regression)............................. 51
2.5 Approximation einer
Policy
mit Hilfe von SV-Klassifikatoren ... 56
2.5.1 Auswahl der zu evaluierenden Zustände .......... 58
2.6 Die beiden Verfahren im Vergleich................. 60
3 Experimente und Ergebnisse 62
3.1
Inverted Pendulum
......................... 63
3.1.1 Approximierte V-Funktion................. 63
3.1.2 Approximierte
Policy
.................... 67
3.2
Grid-World
............................. 70
3.2.1 V-Funktion als Tabelle................... 70
3.2.2 Approximierte V-Funktion................. 70
3.2.3 Approximierte
Policy
.................... 72
3.3
Tic Tac Toe.............................
73
3.3.1 Approximierte V-Funktion................ . 78
3.3.2 Approximierte
Policy
.................... 80
3.4
Tetris
................................ 82
3.4.1 Allgemeine Vorbemerkungen ............... 84
3.4.2 V-Funktion als Tabelle ................... 87
3.4.3 Approximierte V-Funktion................. 87
3.4.4 Approximierte
Policy
.................... 89
3.5 Fazit................................. 90
A
Kurzbeschreibung der Probleme 91
В
Parameter der Experimente 93
B.I Inverted Pendulum .........................
93
B.2
Grid-World
............................. 94
В.З
Tic Tac Toe
............................. 95
B.4
Tetris
................................ 96
|
any_adam_object | 1 |
author | Mulzer, Florian |
author_facet | Mulzer, Florian |
author_role | aut |
author_sort | Mulzer, Florian |
author_variant | f m fm |
building | Verbundindex |
bvnumber | BV035804505 |
classification_rvk | ST 300 |
classification_tum | DAT 700f |
ctrlnum | (OCoLC)316294994 (DE-599)BSZ302303073 |
discipline | Informatik |
format | Book |
fullrecord | <?xml version="1.0" encoding="UTF-8"?><collection xmlns="http://www.loc.gov/MARC21/slim"><record><leader>01443nam a2200361 c 4500</leader><controlfield tag="001">BV035804505</controlfield><controlfield tag="003">DE-604</controlfield><controlfield tag="005">20100122 </controlfield><controlfield tag="007">t</controlfield><controlfield tag="008">091103s2008 ad|| |||| 00||| ger d</controlfield><datafield tag="020" ind1=" " ind2=" "><subfield code="a">9783639078558</subfield><subfield code="9">978-3-639-07855-8</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(OCoLC)316294994</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(DE-599)BSZ302303073</subfield></datafield><datafield tag="040" ind1=" " ind2=" "><subfield code="a">DE-604</subfield><subfield code="b">ger</subfield></datafield><datafield tag="041" ind1="0" ind2=" "><subfield code="a">ger</subfield></datafield><datafield tag="049" ind1=" " ind2=" "><subfield code="a">DE-91</subfield><subfield code="a">DE-739</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ST 300</subfield><subfield code="0">(DE-625)143650:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">DAT 700f</subfield><subfield code="2">stub</subfield></datafield><datafield tag="100" ind1="1" ind2=" "><subfield code="a">Mulzer, Florian</subfield><subfield code="e">Verfasser</subfield><subfield code="4">aut</subfield></datafield><datafield tag="245" ind1="1" ind2="0"><subfield code="a">Reinforcement learning und support vector machines</subfield><subfield code="b">eine Übersicht</subfield><subfield code="c">Florian Mulzer</subfield></datafield><datafield tag="264" ind1=" " ind2="1"><subfield code="a">Saarbrücken</subfield><subfield code="b">VDM-Verl., Müller</subfield><subfield code="c">2008</subfield></datafield><datafield tag="300" ind1=" " ind2=" "><subfield code="a">101 S.</subfield><subfield code="b">Ill., graph. Darst.</subfield></datafield><datafield tag="336" ind1=" " ind2=" "><subfield code="b">txt</subfield><subfield code="2">rdacontent</subfield></datafield><datafield tag="337" ind1=" " ind2=" "><subfield code="b">n</subfield><subfield code="2">rdamedia</subfield></datafield><datafield tag="338" ind1=" " ind2=" "><subfield code="b">nc</subfield><subfield code="2">rdacarrier</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Support-Vektor-Maschine</subfield><subfield code="0">(DE-588)4505517-8</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Bestärkendes Lernen</subfield><subfield code="g">Künstliche Intelligenz</subfield><subfield code="0">(DE-588)4825546-4</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="689" ind1="0" ind2="0"><subfield code="a">Bestärkendes Lernen</subfield><subfield code="g">Künstliche Intelligenz</subfield><subfield code="0">(DE-588)4825546-4</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="1" ind2="0"><subfield code="a">Support-Vektor-Maschine</subfield><subfield code="0">(DE-588)4505517-8</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="1" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="856" ind1="4" ind2="2"><subfield code="m">Digitalisierung UB Passau</subfield><subfield code="q">application/pdf</subfield><subfield code="u">http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=018663575&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA</subfield><subfield code="3">Inhaltsverzeichnis</subfield></datafield><datafield tag="999" ind1=" " ind2=" "><subfield code="a">oai:aleph.bib-bvb.de:BVB01-018663575</subfield></datafield></record></collection> |
id | DE-604.BV035804505 |
illustrated | Illustrated |
indexdate | 2024-07-09T22:04:58Z |
institution | BVB |
isbn | 9783639078558 |
language | German |
oai_aleph_id | oai:aleph.bib-bvb.de:BVB01-018663575 |
oclc_num | 316294994 |
open_access_boolean | |
owner | DE-91 DE-BY-TUM DE-739 |
owner_facet | DE-91 DE-BY-TUM DE-739 |
physical | 101 S. Ill., graph. Darst. |
publishDate | 2008 |
publishDateSearch | 2008 |
publishDateSort | 2008 |
publisher | VDM-Verl., Müller |
record_format | marc |
spelling | Mulzer, Florian Verfasser aut Reinforcement learning und support vector machines eine Übersicht Florian Mulzer Saarbrücken VDM-Verl., Müller 2008 101 S. Ill., graph. Darst. txt rdacontent n rdamedia nc rdacarrier Support-Vektor-Maschine (DE-588)4505517-8 gnd rswk-swf Bestärkendes Lernen Künstliche Intelligenz (DE-588)4825546-4 gnd rswk-swf Bestärkendes Lernen Künstliche Intelligenz (DE-588)4825546-4 s DE-604 Support-Vektor-Maschine (DE-588)4505517-8 s Digitalisierung UB Passau application/pdf http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=018663575&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA Inhaltsverzeichnis |
spellingShingle | Mulzer, Florian Reinforcement learning und support vector machines eine Übersicht Support-Vektor-Maschine (DE-588)4505517-8 gnd Bestärkendes Lernen Künstliche Intelligenz (DE-588)4825546-4 gnd |
subject_GND | (DE-588)4505517-8 (DE-588)4825546-4 |
title | Reinforcement learning und support vector machines eine Übersicht |
title_auth | Reinforcement learning und support vector machines eine Übersicht |
title_exact_search | Reinforcement learning und support vector machines eine Übersicht |
title_full | Reinforcement learning und support vector machines eine Übersicht Florian Mulzer |
title_fullStr | Reinforcement learning und support vector machines eine Übersicht Florian Mulzer |
title_full_unstemmed | Reinforcement learning und support vector machines eine Übersicht Florian Mulzer |
title_short | Reinforcement learning und support vector machines |
title_sort | reinforcement learning und support vector machines eine ubersicht |
title_sub | eine Übersicht |
topic | Support-Vektor-Maschine (DE-588)4505517-8 gnd Bestärkendes Lernen Künstliche Intelligenz (DE-588)4825546-4 gnd |
topic_facet | Support-Vektor-Maschine Bestärkendes Lernen Künstliche Intelligenz |
url | http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=018663575&sequence=000002&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |
work_keys_str_mv | AT mulzerflorian reinforcementlearningundsupportvectormachineseineubersicht |