Deep Reinforcement Learning: das umfassende Praxis-Handbuch
Gespeichert in:
1. Verfasser: | |
---|---|
Weitere Verfasser: | |
Format: | Buch |
Sprache: | German |
Veröffentlicht: |
Frechen
mitp
2020
|
Ausgabe: | 1. Auflage |
Schlagworte: | |
Online-Zugang: | Inhaltsverzeichnis |
Beschreibung: | Auf dem Umschlag: "Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden" |
Beschreibung: | 762 Seiten Illustrationen, Diagramme |
ISBN: | 9783747500361 3747500366 |
Internformat
MARC
LEADER | 00000nam a22000008c 4500 | ||
---|---|---|---|
001 | BV046425480 | ||
003 | DE-604 | ||
005 | 20201027 | ||
007 | t| | ||
008 | 200214s2020 gw a||| |||| 00||| ger d | ||
015 | |a 19,N38 |2 dnb | ||
016 | 7 | |a 1194486622 |2 DE-101 | |
020 | |a 9783747500361 |c : EUR 45.00 (DE), EUR 46.30 (AT) |9 978-3-7475-0036-1 | ||
020 | |a 3747500366 |9 3-7475-0036-6 | ||
024 | 3 | |a 9783747500361 | |
028 | 5 | 2 | |a Bestellnummer: 74750036 |
035 | |a (OCoLC)1164628777 | ||
035 | |a (DE-599)DNB1194486622 | ||
040 | |a DE-604 |b ger |e rda | ||
041 | 0 | |a ger | |
044 | |a gw |c XA-DE-NW | ||
049 | |a DE-20 |a DE-1046 |a DE-706 |a DE-1050 |a DE-92 |a DE-1043 |a DE-29T |a DE-M347 |a DE-703 |a DE-19 |a DE-860 |a DE-83 |a DE-573 |a DE-1102 |a DE-898 |a DE-B768 |a DE-739 | ||
084 | |a ST 300 |0 (DE-625)143650: |2 rvk | ||
084 | |a ST 301 |0 (DE-625)143651: |2 rvk | ||
084 | |a ST 302 |0 (DE-625)143652: |2 rvk | ||
084 | |a 004 |2 sdnb | ||
100 | 1 | |a Lapan, Maxim |e Verfasser |0 (DE-588)1162287047 |4 aut | |
240 | 1 | 0 | |a Deep reinforcement learning hands-on |
245 | 1 | 0 | |a Deep Reinforcement Learning |b das umfassende Praxis-Handbuch |c Maxim Lapan ; Übersetzung aus dem Englischen von Knut Lorenzen |
250 | |a 1. Auflage | ||
264 | 1 | |a Frechen |b mitp |c 2020 | |
264 | 4 | |c © 2020 | |
300 | |a 762 Seiten |b Illustrationen, Diagramme | ||
336 | |b txt |2 rdacontent | ||
337 | |b n |2 rdamedia | ||
338 | |b nc |2 rdacarrier | ||
500 | |a Auf dem Umschlag: "Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden" | ||
650 | 0 | 7 | |a Deep Learning |0 (DE-588)1135597375 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Bestärkendes Lernen |g Künstliche Intelligenz |0 (DE-588)4825546-4 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Maschinelles Lernen |0 (DE-588)4193754-5 |2 gnd |9 rswk-swf |
653 | |a Paperback / softback | ||
653 | |a )Paperback (DE) | ||
653 | |a alphago<div>google ai | ||
653 | |a Data Science | ||
653 | |a Deep Learning | ||
653 | |a deep neural network</div> | ||
653 | |a deep q network | ||
653 | |a Künstliche Intelligenz | ||
653 | |a Machine Learning | ||
653 | |a policy gradient | ||
653 | |a Python | ||
653 | |a trpo | ||
653 | |a value iteration | ||
653 | |a 1632: Hardcover, Softcover / Informatik, EDV/Informatik | ||
689 | 0 | 0 | |a Deep Learning |0 (DE-588)1135597375 |D s |
689 | 0 | 1 | |a Maschinelles Lernen |0 (DE-588)4193754-5 |D s |
689 | 0 | |5 DE-604 | |
689 | 1 | 0 | |a Deep Learning |0 (DE-588)1135597375 |D s |
689 | 1 | 1 | |a Bestärkendes Lernen |g Künstliche Intelligenz |0 (DE-588)4825546-4 |D s |
689 | 1 | |5 DE-604 | |
700 | 1 | |a Lorenzen, Knut |0 (DE-588)1020241446 |4 trl | |
710 | 2 | |a mitp Verlags GmbH & Co. KG |0 (DE-588)1065362072 |4 pbl | |
776 | 0 | 8 | |i Erscheint auch als |n Online-Ausgabe |z 978-3-7475-0037-8 |
776 | 0 | 8 | |i Erscheint auch als |n Online-Ausgabe |z 9783747500385 |
856 | 4 | 2 | |m DNB Datenaustausch |q application/pdf |u http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=031837821&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |3 Inhaltsverzeichnis |
943 | 1 | |a oai:aleph.bib-bvb.de:BVB01-031837821 |
Datensatz im Suchindex
_version_ | 1823924582079266816 |
---|---|
adam_text |
INHALTSVERZEICHNIS
UEBER
DEN
AUTOR
.
17
UEBER
DIE
KORREKTOREN
.
17
UEBER
DEN
FACHKORREKTOR
DER
DEUTSCHEN
AUSGABE
.
18
EINLEITUNG
.
19
TEIL
I
GRUNDLAGEN
DES
REINFORCEMENT
LEARNINGS.
24
1
WAS
IST
REINFORCEMENT
LEAMING?
.
25
1.1
UEBERWACHTES
LERNEN
.
25
1.2
UNUEBERWACHTES
LERNEN
.
26
1.3
REINFORCEMENT
LEAMING
.
26
1.4
HERAUSFORDERUNGEN
BEIM
REINFORCEMENT
LEAMING
.
28
1.5
RL-FORMALISMEN
.
28
1.5.1
BELOHNUNG
.
29
1.5.2
DER
AGENT
.
31
1.5.3
DIE
UMGEBUNG
.
31
1.5.4
AKTIONEN
.
31
1.5.5
BEOBACHTUNGEN
.
32
1.6
DIE
THEORETISCHEN
GRUNDLAGEN
DES
REINFORCEMENT
LEARNINGS
.
34
1.6.1
MARKOV-ENTSCHEIDUNGSPROZESSE
.
35
1.6.2
MARKOV-PROZESS
.
35
1.6.3
MARKOV-BELOHNUNGSPROZESS
.
39
1.6.4
AKTIONEN
HINZUFUEGEN
.
42
1.6.5
POLICY
.
44
1.7
ZUSAMMENFASSUNG
.
45
2
OPENAI
GYM
.
47
2.1
AUFBAU
DES
AGENTEN
.
47
2.2
ANFORDERUNGEN
AN
HARD-
UND
SOFTWARE
.
50
2.3
OPENAI-GYM-API
.
51
2.3.1
AKTIONSRAUM
.
52
2.3.2
BEOBACHTUNGSRAUM
.
52
2.3.3
DIE
UMGEBUNG
.
54
2.3.4
ERZEUGEN
DER
UMGEBUNG
.
55
2.3.5
DIE
CARTPOLE-SITZUNG
.
57
2.4
EIN
CARTPOLE-AGENT
NACH
DEM
ZUFALLSPRINZIP
.
59
2.5
ZUSAETZLICHE
GYM-FUNKTIONALITAET:
WRAPPER
UND
MONITOR
.
60
2.5.1
WRAPPER
.
61
2.5.2
MONITOR
.
63
2.6
ZUSAMMENFASSUNG
.
66
3
DEEP
LEAMING
MIT
PYTORCH
.
67
3.1
TENSOREN
.
67
3.1.1
TENSOREN
ERZEUGEN
.
68
3.1.2
SKALARE
TENSOREN
.
70
3.1.3
TENSOR-OPERATIONEN
.
71
3.1.4
GPU-TENSOREN
.
71
3.2
GRADIENTEN
.
72
3.2.1
TENSOREN
UND
GRADIENTEN
.
74
3.3
NN-BAUSTEINE
.
76
3.4
BENUTZERDEFINIERTE
SCHICHTEN
.
78
3.5
VERLUSTFUNKTIONEN
UND
OPTIMIERER
.
80
3.5.1
VERLUSTFUNKTIONEN
.
81
3.5.2
OPTIMIERER
.
81
3.6
MONITORING
MIT
TENSORBOARD
.
83
3.6.1
EINFUEHRUNG
IN
TENSORBOARD
.
84
3.6.2
FLOTTEN
.
85
3.7
BEISPIEL:
GAN
FUER
BILDER
VON
ATARI-SPIELEN
.
87
3.8
PYTORCH
IGNITE
.
92
3.8.1
KONZEPTE
.
93
3.9
ZUSAMMENFASSUNG
.
97
4
DAS
KREUZENTROPIE-VERFAHREN
.
99
4.1
KLASSIFIKATION
VON
PT-VERFAHREN
.
99
4.2
KREUZENTROPIE
IN
DER
PRAXIS
.
100
4.3
KREUZENTROPIE
BEIM
CARTPOLE
.
102
4.4
KREUZENTROPIE
BEIM
FROZENLAKE
.
111
4.5
THEORETISCHE
GRUNDLAGEN
DES
KREUZENTROPIE-VERFAHRENS
.
118
4.6
ZUSAMMENFASSUNG
.
119
TEIL
II
WERTEBASIERTE
VERFAHREN
.
120
5
TABULAR
LEAMING
UND
DAS
BELLMAN
*
SCHE
OPTIMALITAETSPRINZIP
.
121
5.1
WERT,
ZUSTAND
UND
OPTIMALITAET
.
121
5.2
DAS
BELLMAN
*
SCHE
OPTIMALITAETSPRINZIP
.
123
5.3
AKTIONSWERT
.
126
5.4
WERTITERATION
.
128
5.5
WERTITERATION
IN DER
PRAXIS
.
130
5.6
Q-LEAMING
IN
DER
FROZENLAKE-UMGEBUNG
.
136
5.7
ZUSAMMENFASSUNG
.
138
6
DEEP
Q-NETWORKS
.
139
6.1
WERTITERATION
IN
DER
PRAXIS
.
139
6.2
TABULAR
Q-LEAMING
.
140
6.3
DEEP
Q-LEAMING
.
145
6.3.1
INTERAKTION
MIT
DER
UMGEBUNG
.
147
6.3.2
S
G
D-OPTIMIERUNG
.
147
6.3.3
KORRELATION
DER
SCHRITTE
.
148
6.3.4
DIE
MARKOV-EIGENSCHAFT
.
148
6.3.5
DIE
ENDGUELTIGE
FORM
DES
DQN-TRAININGS
.
149
6.4
DQN
MIT
PONG
.
150
6.4.1
WRAPPER
.
151
6.4.2
DQN-MODELL
.
156
6.4.3
TRAINING
.
158
6.4.4
AUSFUEHRUNG
UND
LEISTUNG
.
167
6.4.5
DAS
MODELL
IN
AKTION
.
170
6.5
WEITERE
MOEGLICHKEITEN
.
172
6.6
ZUSAMMENFASSUNG
.
173
7
ALLGEMEINE
RL-BIBLIOTHEKEN
.
175
7.1
WARUM
RL-BIBLIOTHEKEN?
.
175
7.2
DIE
PTAN-BIBLIOTHEK.
176
7.2.1
AKTIONSSELEKTOREN
.
177
7.2.2
DER
AGENT
.
179
7.2.3
QUELLE
DER
ERFAHRUNGSWERTE
.
183
7.2.4
REPLAY
BUFFER
FUER
ERFAHRUNGSWERTE
.
189
7.2.5
DIE
TARGETNET-KLASSE
.
191
7.2.6
HILFSFUNKTIONEN
FUER
IGNITE
.
193
7.3
LOESUNG
DER
CARTPOLE-UMGEBUNG
MIT
PTAN
.
194
7.4
WEITERE
RL-BIBLIOTHEKEN
.
196
7.5
ZUSAMMENFASSUNG
.
197
8
DQN-ERWEITERUNGEN.
199
8.1
EINFACHES
DQN
.
199
8.1.1
DIE
BIBLIOTHEK
COMMON
.
200
8.1.2
IMPLEMENTIERUNG
.
205
8.1.3
ERGEBNISSE
.
207
8.2
N-SCHRITT-DQN
.
208
8.2.1
IMPLEMENTIERUNG
.
211
8.2.2
ERGEBNISSE
.
211
8.3
DOUBLE
DQN
.
212
8.3.1
IMPLEMENTIERUNG
.
213
8.3.2
ERGEBNISSE
.
215
8.4
VERRAUSCHTE
NETZE
.
216
8.4.1
IMPLEMENTIERUNG
.
217
8.4.2
ERGEBNISSE
.
219
8.5
PRIORISIERTER
REPLAY
BUFFER
.
220
8.5.1
IMPLEMENTIERUNG
.
221
8.5.2
ERGEBNISSE
.
225
8.6
RIVALISIERENDES
DQN
.
227
8.6.1
IMPLEMENTIERUNG
.
228
8.6.2
ERGEBNISSE
.
229
8.7
KATEGORIALES
DQN
.
230
8.7.1
IMPLEMENTIERUNG
.
232
8.7.2
ERGEBNISSE
.
239
8.8
ALLES
MITEINANDER
KOMBINIEREN
.
241
8.8.1
ERGEBNISSE
.
242
8.9
ZUSAMMENFASSUNG
.
243
8.10
QUELLENANGABEN
.
244
9
BESCHLEUNIGUNG
VON
RL-VERFAHREN
.
245
9.1
DIE
BEDEUTUNG
DER
GESCHWINDIGKEIT
.
245
9.2
DER
AUSGANGSPUNKT
.
248
9.3
DER
BERECHNUNGSGRAPH
IN
PYTORCH
.
250
9.4
MEHRERE
UMGEBUNGEN
.
252
9.5
SPIELEN
UND
TRAINIEREN
IN
SEPARATEN
PROZESSEN
.
255
9.6
OPTIMIERUNG
DER
WRAPPER
.
259
9.7
ZUSAMMENFASSUNG
DER
BENCHMARKS
.
265
9.8
ATARI-EMULATION:
CULE
.
265
9.9
ZUSAMMENFASSUNG
.
266
9.10
QUELLENANGABEN
.
266
10
AKTIENHANDEL
PER
REINFORCEMENT
LEAMING
.
267
10.1
BOERSENHANDEL
.
267
10.2
DATEN
.
268
10.3
AUFGABENSTELLUNGEN
UND
GRUNDSATZENTSCHEIDUNGEN
.
269
10.4
DIE
HANDELSUMGEBUNG
.
270
10.5
MODELLE
.
279
10.6
TRAININGSCODE
.
281
10.7
ERGEBNISSE
.
281
10.7.1
DAS
FEEDFORWARD-MODELL
.
281
10.7.2
DAS
FALTUNGSMODELL
.
287
10.8
WEITERE
MOEGLICHKEITEN
.
288
10.9
ZUSAMMENFASSUNG
.
289
TEIL
III
POLICYBASIERTE
VERFAHREN
.
290
11
EINE
ALTERNATIVE:
POLICY
GRADIENTS
.
291
11.1
WERTE
UND
POLICY
.
291
11.1.1
WARUM
POLICY?
.
292
11.1.2
REPRAESENTATION
DER
POLICY
.
292
11.1.3
POLICY
GRADIENTS
.
293
11.2
DAS
REINFORCE-VERFAHREN
.
294
11.2.1
DAS
CARTPOLE-BEISPIEL
.
295
11.2.2
ERGEBNISSE
.
299
11.2.3
POLICYBASIERTE
UND
WERTEBASIERTE
VERFAHREN
.
300
11.3
PROBLEME
MIT
REINFORCE
.
301
11.3.1
NOTWENDIGKEIT
VOLLSTAENDIGER
EPISODEN
.
301
11.3.2
GROSSE
VARIANZ
DER
GRADIENTEN
.
302
11.3.3
EXPLORATION
.
302
11.3.4
KORRELATION
ZWISCHEN
BEISPIELEN
.
303
11.4
PG
MIT
CARTPOLE
.
303
11.4.1
IMPLEMENTIERUNG
.
303
11.4.2
ERGEBNISSE
.
306
11.5
PG
MIT
PONG
.
310
11.5.1
IMPLEMENTIERUNG
.
311
11.5.2
ERGEBNISSE
.
312
11.6
ZUSAMMENFASSUNG
.
313
12
DAS ACTOR-CRITIC-VERFAHREN
.
315
12.1
VERRINGERN
DER
VARIANZ
.
315
12.2
VARIANZ
DER
CARTPOLE-UMGEBUNG
.
317
12.3
ACTOR-CRITIC
.
320
12.4
A2C
MIT
PONG
.
322
12.5
A2C
MIT
PONG:
ERGEBNISSE
.
328
12.6
OPTIMIERUNG
DER
HYPERPARAMETER
.
331
12.6.1
LEMRATE
.
332
12.6.2
BETA
.
333
12.6.3
ANZAHL
DER
UMGEBUNGEN
.
333
12.6.4
BATCHGROESSE
.
333
12.7
ZUSAMMENFASSUNG
.
333
13
ASYNCHRONOUS
ADVANTAGE
ACTOR
CRITIC
.
335
13.1
KORRELATION
UND
STICHPROBENEFFIZIENZ
.
335
13.2
EIN
WEITERES
A
ZU
A2C
HINZUFUEGEN
.
336
13.3
MULTIPROCESSING
IN
PYTHON
.
339
13.4
A3C
MIT
DATENPARALLELITAET
.
339
13.4.1
IMPLEMENTIERUNG
.
339
13.4.2
ERGEBNISSE
.
346
13.5
A3C
MIT
GRADIENTENPARALLELITAET
.
347
13.5.1
IMPLEMENTIERUNG
.
348
13.5.2
ERGEBNISSE
.
353
13.6
ZUSAMMENFASSUNG
.
354
14
CHATBOT-TRAINING
PER
REINFORCEMENT
LEAMING
.
355
14.1
CHATBOTS
-
EIN
UEBERBLICK
.
355
14.2
CHATBOT-TRAINING
.
356
14.3
GRUNDLAGEN
DER
VERARBEITUNG
NATUERLICHER
SPRACHE
.
357
14.3.1
REKURRENTE
NEURONALE
NETZE
.
357
14.3.2
WORT-EMBEDDINGS
.
359
14.3.3
ENCODER-DECODER
.
360
14.4
SEQ2SEQ-TRAINING
.
361
14.4.1
LOG-LIKELIHOOD-TRAINING
.
361
14.4.2
DER
BLEU-SCORE
.
363
14.4.3
RL
UND
SEQ2SEQ
.
364
14.4.4
SELF-CRITICAL
SEQUENCE
TRAINING
.
365
14.5
DAS
CHATBOT-BEISPIEL
.
366
14.5.1
AUFBAU
DES
BEISPIELS
.
366
14.5.2
MODULE:
COMELL.PY
UND
DATA.PY
.
367
14.5.3
BLEU-SCORE
UND
UTILS.PY
.
368
14.5.4
MODELL
.
369
14.6
DATEN
UEBERPRUEFEN
.
376
14.7
TRAINING:
KREUZENTROPIE
.
378
14.7.1
IMPLEMENTIERUNG
.
378
14.7.2
ERGEBNISSE
.
382
14.8
TRAINING:
SELF-CRITICAL
SEQUENCE
TRAINING
(SCST)
.
385
14.8.1
IMPLEMENTIERUNG
.
385
14.8.2
ERGEBNISSE
.
392
14.9
TESTS
DER
MODELLE
MIT
DATEN
.
395
14.10
TELEGRAM-BOT
.
397
14.11
ZUSAMMENFASSUNG
.
401
15
DIE
TEXTWORLD-UMGEBUNG.
403
15.1
INTERACTIVE
FICTION
.
403
15.2
DIE
UMGEBUNG
.
406
15.2.1
INSTALLATION
.
407
15.2.2
SPIEL
ERZEUGEN
.
407
15.2.3
BEOBACHTUNG^
UND
AKTIONSRAEUME
.
409
15.2.4
ZUSAETZLICHE
INFORMATIONEN
.
411
15.3
EINFACHES
DQN
.
414
15.3.1
VORVERARBEITUNG
VON
BEOBACHTUNGEN
.
416
15.3.2
EMBEDDINGS
UND
ENCODER
.
421
15.3.3
DQN-MODELL
UND
AGENT
.
424
15.3.4
TRAININGSCODE
.
426
15.3.5
TRAININGSERGEBNISSE
.
426
15.4
DAS
MODELL
FUER
DEN
BEFEHLSGENERATOR
.
431
15.4.1
IMPLEMENTIERUNG
.
433
15.4.2
ERGEBNISSE
DES
PRETRAININGS
.
437
15.4.3
DQN-TRAININGSCODE
.
439
15.4.4
ERGEBNIS
DES
DQN-TRAININGS
.
441
15.5
ZUSAMMENFASSUNG
.
442
16
NAVIGATION
IM
WEB
.
443
16.1
WEBNAVIGATION
.
443
16.1.1
BROWSERAUTOMATISIERUNG
UND
RL
.
444
16.1.2
MINI
WORLD
OF
BITS
.
445
16.2
OPENAI
UNIVERSE
.
446
16.2.1
INSTALLATION
.
447
16.2.2
AKTIONEN
UND
BEOBACHTUNGEN
.
448
16.2.3
UMGEBUNG
ERZEUGEN
.
449
16.2.4
MINIWOB-STABILITAET
.
451
16.3
EINFACHES
ANKLICKEN
.
451
16.3.1
AKTIONEN
AUF
DEM
GITTER
.
452
16.3.2
UEBERSICHT
DER
BEISPIELE
.
453
16.3.3
MODELL
.
454
16.3.4
TRAININGSCODE
.
455
16.3.5
CONTAINER
STARTEN
.
460
16.3.6
TRAININGSPROZESS
.
461
16.3.7
UEBERPRUEFEN
DER
ERLERNTEN
POLICY
.
464
16.3.8
PROBLEME
MIT
EINFACHEM
ANKLICKEN
.
465
16.4
DEMONSTRATIONEN
DURCH
DEN
MENSCHEN
.
467
16.4.1
AUFZEICHNUNG
VON
DEMONSTRATIONEN
.
468
16.4.2
AUFZEICHNUNGSFORMAT
.
470
16.4.3
TRAINING
DURCH
DEMONSTRATION
.
473
16.4.4
ERGEBNISSE
.
474
16.4.5
TIC-TAC-TOE
.
478
16.5
HINZUFUEGEN
VON
BESCHREIBUNGSTEXT
.
480
16.5.1
IMPLEMENTIERUNG
.
481
16.5.2
ERGEBNISSE
.
486
16.6
WEITERE
MOEGLICHKEITEN
.
489
16.7
ZUSAMMENFASSUNG
.
489
TEIL
IV
FORTGESCHRITTENE
VERFAHREN
UND
TECHNIKEN
.
490
17
STETIGE
AKTIONSRAEUME
.
491
17.1
WOZU
STETIGE
AKTIONSRAEUME?
.
491
17.2
AKTIONSRAUM
.
492
17.3
UMGEBUNGEN
.
492
17.4
DAS
A2C-VERFAHREN
.
495
17.4.1
IMPLEMENTIERUNG
.
496
17.4.2
ERGEBNISSE
.
499
17.4.3
MODELLE
VERWENDEN
UND
VIDEOS
AUFZEICHNEN
.
501
17.5
DETERMINISTISCHES
POLICY-GRADIENTEN-VERFAHREN
.
502
17.5.1
EXPLORATION
.
503
17.5.2
IMPLEMENTIERUNG
.
504
17.5.3
ERGEBNISSE
.
509
17.5.4
VIDEOS
AUFZEICHNEN
.
511
17.6
DISTRIBUTIONAL
POLICY
GRADIENTS
.
511
17.6.1
ARCHITEKTUR
.
512
17.6.2
IMPLEMENTIERUNG
.
512
17.6.3
ERGEBNISSE
.
517
17.6.4
VIDEOAUFZEICHNUNG
.
519
17.7
WEITERE
MOEGLICHKEITEN
.
519
17.8
ZUSAMMENFASSUNG
.
519
18
RL
IN
DER
ROBOTIK
.
521
18.1
ROBOTER
UND
ROBOTIK
.
521
18.1.1
KOMPLEXITAET
VON
ROBOTERN
.
523
18.1.2
HARDWARE
.
524
18.1.3
PLATTFORM
.
525
18.1.4
SENSOREN
.
526
18.1.5
AKTUATOREN
.
528
18.1.6
RAHMEN
.
528
18.2
EIN
ERSTES
TRAININGSZIEL
.
532
18.3
EMULATOR
UND
MODELL
.
534
18.3.1
DEFINITIONSDATEI
DES
MODELLS
.
535
18.3.2
DIE
ROBOT-KLASSE
.
539
18.4
DDPG-TRAINING
UND
ERGEBNISSE
.
545
18.5
STEUERUNG
DER
HARDWARE
.
548
18.5.1
MICROPYTHON
.
548
18.5.2
HANDHABUNG
VON
SENSOREN
.
552
18.5.3
SERVOS
ANSTEUEM
.
565
18.5.4
EINRICHTUNG
DES
MODELLS
AUF
DER
HARDWARE
.
569
18.5.5
ALLES
KOMBINIEREN
.
577
18.6
EXPERIMENTE
MIT
DER
POLICY
.
580
18.7
ZUSAMMENFASSUNG
.
581
19
TRUST
REGIONS
-
PPO,
TRPO,
ACKTR
UND
SAG
.
583
19.1
ROBOSCHOOL
.
584
19.2
STANDARD-A2C-VERFAHREN
.
584
19.2.1
IMPLEMENTIERUNG
.
584
19.2.2
ERGEBNISSE
.
586
19.2.3
VIDEOAUFZEICHNUNGEN
.
590
19.3
PROXIMAL
POLICY
OPTIMIZATION
(PPO)
.
590
19.3.1
IMPLEMENTIERUNG
.
591
19.3.2
ERGEBNISSE
.
595
19.4
TRUST
REGION
POLICY
OPTIMIZATION
(TRPO)
.
597
19.4.1
IMPLEMENTIERUNG
.
597
19.4.2
ERGEBNISSE
.
599
19.5
ADVANTAGE
ACTOR-CRITIC
MIT
KRONECKER-FACTORED
TRUST
REGION
(ACKTR)
.
600
19.5.1
IMPLEMENTIERUNG
.
601
19.5.2
ERGEBNISSE
.
601
19.6
SOFT-ACTOR-CRITIC
(SAG)
.
602
19.6.1
IMPLEMENTIERUNG
.
603
19.6.2
ERGEBNISSE
.
605
19.7
ZUSAMMENFASSUNG
.
607
20
BLACKBOX-OPTIMIERUNG
BEIM
REINFORCEMENT
LEAMING.
609
20.1
BLACKBOX-VERFAHREN
.
609
20.2
EVOLUTIONSSTRATEGIEN
(ES)
.
610
20.3
ES
MIT
CARTPOLE
.
611
20.3.1
ERGEBNISSE
.
616
20.4
ES
MIT
HALFCHEETAH
.
617
20.4.1
IMPLEMENTIERUNG
.
618
20.4.2
ERGEBNISSE
.
622
20.5
GENETISCHE
ALGORITHMEN
(GA)
.
624
20.6
GA
MIT
CARTPOLE
.
624
20.6.1
ERGEBNISSE
.
626
20.7
GA-OPTIMIERUNG
.
627
20.7.1
DEEP
GA.
628
20.7.2
NOVELTY
SEARCH
.
628
20.8
GA
MIT
HALFCHEETAH
.
628
20.8.1
ERGEBNISSE
.
631
20.9
ZUSAMMENFASSUNG
.
633
20.10
QUELLENANGABEN
.
633
21
FORTGESCHRITTENE
EXPLORATION
.
635
21.1
DIE
BEDEUTUNG
DER
EXPLORATION
.
635
21.2
WAS
IST
DAS
PROBLEM
BEIM
C-GREEDY-ANSATZ?
.
636
21.3
ALTERNATIVE
EXPLORATIONSVERFAHREN
.
639
21.3.1
VERRAUSCHTE
NETZE
.
639
21.3.2
ZAEHLERBASIERTE
VERFAHREN
.
640
21.3.3
VORHERSAGEBASIERTE
VERFAHREN
.
641
21.4
MOUNTAINCAR-EXPERIMENTE
.
641
21.4.1
DAS
DQN-VERFAHREN
MIT
E-GREEDY-ANSATZ
.
643
21.4.2
DAS
DQN-VERFAHREN
MIT
VERRAUSCHTEN
NETZEN
.
644
21.4.3
DAS
DQN-VERFAHREN
MIT
ZUSTANDSZAEHLEM
.
646
21.4.4
DAS
PPO-VERFAHREN
.
649
21.4.5
DAS
PPO-VERFAHREN
MIT
VERRAUSCHTEN
NETZEN
.
652
21.4.6
DAS
PPO-VERFAHREN
MIT
ZAEHLERBASIERTER
EXPLORATION
.
654
21.4.7
DAS
PPO-VERFAHREN
MIT
NETZ-DESTILLATION
.
656
21.5
ATARI-EXPERIMENTE
.
658
21.5.1
DAS
DQN-VERFAHREN
MIT
E-GREEDY-ANSATZ
.
659
21.5.2
DAS
KLASSISCHE
PPO-VERFAHREN
.
660
21.5.3
DAS
PPO-VERFAHREN
MIT
NETZ-DESTILLATION
.
661
21.5.4
DAS
PPO-VERFAHREN
MIT
VERRAUSCHTEN
NETZEN
.
662
21.6
ZUSAMMENFASSUNG
.
663
21.7
QUELLENANGABEN
.
663
22
JENSEITS
MODELLFREIER
VERFAHREN
-
IMAGINATION
.
665
22.1
MODELLBASIERTE
VERFAHREN
.
665
22.1.1
MODELLBASIERTE
UND
MODELLFREIE
VERFAHREN
.
665
22.2
UNZULAENGLICHKEITEN
DER
MODELLE
.
666
22.3
IMAGINATION-AUGMENTED
AGENT
.
668
22.3.1
DAS
UMGEBUNGSMODELL
.
669
22.3.2
DIE
ROLLOUT-POLICY
.
670
22.3.3
DER
ROLLOUT-ENCODER
.
670
22.3.4
ERGEBNISSE
DER
ARBEIT
.
670
22.4
I2A
MIT
DEM
ATARI-SPIEL
BREAKOUT
.
670
22.4.1
DER
STANDARD-A2C-AGENT
.
671
22.4.2
TRAINING
DES
UMGEBUNGSMODELLS
.
672
22.4.3
DER
IMAGINATION-AGENT
.
675
22.5
ERGEBNISSE
DER
EXPERIMENTE
.
681
22.5.1
DER
BASIS-AGENT
.
681
22.5.2
TRAINING
DER
EM-GEWICHTE
.
683
22.5.3
TRAINING
MIT
DEM
I2A-MODELL
.
685
22.6
ZUSAMMENFASSUNG
.
688
22.7
QUELLENANGABEN
.
688
23
ALPHAGO
ZERO
.
689
23.1
BRETTSPIELE
.
689
23.2
DAS
ALPHAGO-ZERO-VERFAHREN
.
690
23.2.1
UEBERBLICK
.
690
23.2.2
MONTE-CARLO-BAUMSUCHE
.
691
23.2.3
SELF-PLAYING
.
693
23.2.4
TRAINING
UND
BEWERTUNG
.
694
23.3
VIER-GEWINNT-BOT
.
694
23.3.1
SPIELMODELL
.
695
23.3.2
IMPLEMENTIERUNG
DER
MONTE-CARLO-BAUMSUCHE
.
697
23.3.3
MODELL
.
702
23.3.4
TRAINING
.
705
23.3.5
TEST
UND
VERGLEICH
.
705
23.4
VIER
GEWINNT:
ERGEBNISSE
.
706
23.5
ZUSAMMENFASSUNG
.
708
23.6
QUELLENANGABEN
.
708
24
RL
UND
DISKRETE
OPTIMIERUNG
.
709
24.1
DIE
REPUTATION
VON
REINFORCEMENT
LEAMINGS
.
709
24.2
ZAUBERWUERFEL
UND
KOMBINATORISCHE
OPTIMIERUNG
.
710
24.3
OPTIMALITAET
UND
GOTTES
ZAHL
.
711
24.4
ANSAETZE
ZUR
LOESUNG
.
712
24.4.1
DATENREPRAESENTATION
.
712
24.4.2
AKTIONEN
.
712
24.4.3
ZUSTAENDE
.
713
24.5
TRAININGSVORGANG
.
717
24.5.1
ARCHITEKTUR
DES
NEURONALEN
NETZES
.
717
24.5.2
TRAINING
.
718
24.6
ANWENDUNG
DES
MODELLS
.
719
24.7
ERGEBNISSE
DER
ARBEIT
.
721
24.8
CODE
.
722
24.8.1
WUERFEL-UMGEBUNGEN
.
723
24.8.2
TRAINING
.
727
24.8.3
SUCHVORGANG
.
729
24.9
ERGEBNISSE
DES
EXPERIMENTS
.
729
24.9.1
DER
2X2
-WUERFEL
.
731
24.9.2
DER
3X3-WUERFEL
.
733
24.9.3
WEITERE
VERBESSERUNGEN
UND
EXPERIMENTE
.
734
24.10
ZUSAMMENFASSUNG
.
735
25
RL
MIT
MEHREREN
AGENTEN
.
737
25.1
MEHRERE
AGENTEN
.
737
25.1.1
KOMMUNIKATIONSFORMEN
.
738
25.1.2
DER
RL-ANSATZ
.
738
25.2
DIE
MAGENT-UMGEBUNG
.
738
25.2.1
INSTALLATION
.
739
25.2.2
UEBERBLICK
.
739
25.2.3
EINE
ZUFAELLIGE
UMGEBUNG
.
739
25.3
DEEP
Q-NETWORKS
FUER
TIGER
.
745
25.3.1
TRAINING
UND
ERGEBNISSE
.
748
25.4
ZUSAMMENARBEIT
DER
TIGER
.
750
25.5
TRAINING
DER
TIGER
UND
HIRSCHE
.
754
25.6
DER
KAMPF
EBENBUERTIGER
AKTEURE
.
755
25.7
ZUSAMMENFASSUNG
.
756
STICHWORTVERZEICHNIS
.
757 |
any_adam_object | 1 |
author | Lapan, Maxim |
author2 | Lorenzen, Knut |
author2_role | trl |
author2_variant | k l kl |
author_GND | (DE-588)1162287047 (DE-588)1020241446 |
author_facet | Lapan, Maxim Lorenzen, Knut |
author_role | aut |
author_sort | Lapan, Maxim |
author_variant | m l ml |
building | Verbundindex |
bvnumber | BV046425480 |
classification_rvk | ST 300 ST 301 ST 302 |
ctrlnum | (OCoLC)1164628777 (DE-599)DNB1194486622 |
discipline | Informatik |
edition | 1. Auflage |
format | Book |
fullrecord | <?xml version="1.0" encoding="UTF-8"?><collection xmlns="http://www.loc.gov/MARC21/slim"><record><leader>00000nam a22000008c 4500</leader><controlfield tag="001">BV046425480</controlfield><controlfield tag="003">DE-604</controlfield><controlfield tag="005">20201027</controlfield><controlfield tag="007">t|</controlfield><controlfield tag="008">200214s2020 gw a||| |||| 00||| ger d</controlfield><datafield tag="015" ind1=" " ind2=" "><subfield code="a">19,N38</subfield><subfield code="2">dnb</subfield></datafield><datafield tag="016" ind1="7" ind2=" "><subfield code="a">1194486622</subfield><subfield code="2">DE-101</subfield></datafield><datafield tag="020" ind1=" " ind2=" "><subfield code="a">9783747500361</subfield><subfield code="c">: EUR 45.00 (DE), EUR 46.30 (AT)</subfield><subfield code="9">978-3-7475-0036-1</subfield></datafield><datafield tag="020" ind1=" " ind2=" "><subfield code="a">3747500366</subfield><subfield code="9">3-7475-0036-6</subfield></datafield><datafield tag="024" ind1="3" ind2=" "><subfield code="a">9783747500361</subfield></datafield><datafield tag="028" ind1="5" ind2="2"><subfield code="a">Bestellnummer: 74750036</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(OCoLC)1164628777</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(DE-599)DNB1194486622</subfield></datafield><datafield tag="040" ind1=" " ind2=" "><subfield code="a">DE-604</subfield><subfield code="b">ger</subfield><subfield code="e">rda</subfield></datafield><datafield tag="041" ind1="0" ind2=" "><subfield code="a">ger</subfield></datafield><datafield tag="044" ind1=" " ind2=" "><subfield code="a">gw</subfield><subfield code="c">XA-DE-NW</subfield></datafield><datafield tag="049" ind1=" " ind2=" "><subfield code="a">DE-20</subfield><subfield code="a">DE-1046</subfield><subfield code="a">DE-706</subfield><subfield code="a">DE-1050</subfield><subfield code="a">DE-92</subfield><subfield code="a">DE-1043</subfield><subfield code="a">DE-29T</subfield><subfield code="a">DE-M347</subfield><subfield code="a">DE-703</subfield><subfield code="a">DE-19</subfield><subfield code="a">DE-860</subfield><subfield code="a">DE-83</subfield><subfield code="a">DE-573</subfield><subfield code="a">DE-1102</subfield><subfield code="a">DE-898</subfield><subfield code="a">DE-B768</subfield><subfield code="a">DE-739</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ST 300</subfield><subfield code="0">(DE-625)143650:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ST 301</subfield><subfield code="0">(DE-625)143651:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ST 302</subfield><subfield code="0">(DE-625)143652:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">004</subfield><subfield code="2">sdnb</subfield></datafield><datafield tag="100" ind1="1" ind2=" "><subfield code="a">Lapan, Maxim</subfield><subfield code="e">Verfasser</subfield><subfield code="0">(DE-588)1162287047</subfield><subfield code="4">aut</subfield></datafield><datafield tag="240" ind1="1" ind2="0"><subfield code="a">Deep reinforcement learning hands-on</subfield></datafield><datafield tag="245" ind1="1" ind2="0"><subfield code="a">Deep Reinforcement Learning</subfield><subfield code="b">das umfassende Praxis-Handbuch</subfield><subfield code="c">Maxim Lapan ; Übersetzung aus dem Englischen von Knut Lorenzen</subfield></datafield><datafield tag="250" ind1=" " ind2=" "><subfield code="a">1. Auflage</subfield></datafield><datafield tag="264" ind1=" " ind2="1"><subfield code="a">Frechen</subfield><subfield code="b">mitp</subfield><subfield code="c">2020</subfield></datafield><datafield tag="264" ind1=" " ind2="4"><subfield code="c">© 2020</subfield></datafield><datafield tag="300" ind1=" " ind2=" "><subfield code="a">762 Seiten</subfield><subfield code="b">Illustrationen, Diagramme</subfield></datafield><datafield tag="336" ind1=" " ind2=" "><subfield code="b">txt</subfield><subfield code="2">rdacontent</subfield></datafield><datafield tag="337" ind1=" " ind2=" "><subfield code="b">n</subfield><subfield code="2">rdamedia</subfield></datafield><datafield tag="338" ind1=" " ind2=" "><subfield code="b">nc</subfield><subfield code="2">rdacarrier</subfield></datafield><datafield tag="500" ind1=" " ind2=" "><subfield code="a">Auf dem Umschlag: "Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden"</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Deep Learning</subfield><subfield code="0">(DE-588)1135597375</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Bestärkendes Lernen</subfield><subfield code="g">Künstliche Intelligenz</subfield><subfield code="0">(DE-588)4825546-4</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Maschinelles Lernen</subfield><subfield code="0">(DE-588)4193754-5</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">Paperback / softback</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">)Paperback (DE)</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">alphago<div>google ai</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">Data Science</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">Deep Learning</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">deep neural network</div></subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">deep q network</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">Künstliche Intelligenz</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">Machine Learning</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">policy gradient</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">Python</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">trpo</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">value iteration</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">1632: Hardcover, Softcover / Informatik, EDV/Informatik</subfield></datafield><datafield tag="689" ind1="0" ind2="0"><subfield code="a">Deep Learning</subfield><subfield code="0">(DE-588)1135597375</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2="1"><subfield code="a">Maschinelles Lernen</subfield><subfield code="0">(DE-588)4193754-5</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="689" ind1="1" ind2="0"><subfield code="a">Deep Learning</subfield><subfield code="0">(DE-588)1135597375</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="1" ind2="1"><subfield code="a">Bestärkendes Lernen</subfield><subfield code="g">Künstliche Intelligenz</subfield><subfield code="0">(DE-588)4825546-4</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="1" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="700" ind1="1" ind2=" "><subfield code="a">Lorenzen, Knut</subfield><subfield code="0">(DE-588)1020241446</subfield><subfield code="4">trl</subfield></datafield><datafield tag="710" ind1="2" ind2=" "><subfield code="a">mitp Verlags GmbH & Co. KG</subfield><subfield code="0">(DE-588)1065362072</subfield><subfield code="4">pbl</subfield></datafield><datafield tag="776" ind1="0" ind2="8"><subfield code="i">Erscheint auch als</subfield><subfield code="n">Online-Ausgabe</subfield><subfield code="z">978-3-7475-0037-8</subfield></datafield><datafield tag="776" ind1="0" ind2="8"><subfield code="i">Erscheint auch als</subfield><subfield code="n">Online-Ausgabe</subfield><subfield code="z">9783747500385</subfield></datafield><datafield tag="856" ind1="4" ind2="2"><subfield code="m">DNB Datenaustausch</subfield><subfield code="q">application/pdf</subfield><subfield code="u">http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=031837821&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA</subfield><subfield code="3">Inhaltsverzeichnis</subfield></datafield><datafield tag="943" ind1="1" ind2=" "><subfield code="a">oai:aleph.bib-bvb.de:BVB01-031837821</subfield></datafield></record></collection> |
id | DE-604.BV046425480 |
illustrated | Illustrated |
indexdate | 2025-02-13T07:00:28Z |
institution | BVB |
institution_GND | (DE-588)1065362072 |
isbn | 9783747500361 3747500366 |
language | German |
oai_aleph_id | oai:aleph.bib-bvb.de:BVB01-031837821 |
oclc_num | 1164628777 |
open_access_boolean | |
owner | DE-20 DE-1046 DE-706 DE-1050 DE-92 DE-1043 DE-29T DE-M347 DE-703 DE-19 DE-BY-UBM DE-860 DE-83 DE-573 DE-1102 DE-898 DE-BY-UBR DE-B768 DE-739 |
owner_facet | DE-20 DE-1046 DE-706 DE-1050 DE-92 DE-1043 DE-29T DE-M347 DE-703 DE-19 DE-BY-UBM DE-860 DE-83 DE-573 DE-1102 DE-898 DE-BY-UBR DE-B768 DE-739 |
physical | 762 Seiten Illustrationen, Diagramme |
publishDate | 2020 |
publishDateSearch | 2020 |
publishDateSort | 2020 |
publisher | mitp |
record_format | marc |
spelling | Lapan, Maxim Verfasser (DE-588)1162287047 aut Deep reinforcement learning hands-on Deep Reinforcement Learning das umfassende Praxis-Handbuch Maxim Lapan ; Übersetzung aus dem Englischen von Knut Lorenzen 1. Auflage Frechen mitp 2020 © 2020 762 Seiten Illustrationen, Diagramme txt rdacontent n rdamedia nc rdacarrier Auf dem Umschlag: "Moderne Algorithmen für Chatbots, Robotik, diskrete Optimierung und Web-Automatisierung inkl. Multiagenten-Methoden" Deep Learning (DE-588)1135597375 gnd rswk-swf Bestärkendes Lernen Künstliche Intelligenz (DE-588)4825546-4 gnd rswk-swf Maschinelles Lernen (DE-588)4193754-5 gnd rswk-swf Paperback / softback )Paperback (DE) alphago<div>google ai Data Science Deep Learning deep neural network</div> deep q network Künstliche Intelligenz Machine Learning policy gradient Python trpo value iteration 1632: Hardcover, Softcover / Informatik, EDV/Informatik Deep Learning (DE-588)1135597375 s Maschinelles Lernen (DE-588)4193754-5 s DE-604 Bestärkendes Lernen Künstliche Intelligenz (DE-588)4825546-4 s Lorenzen, Knut (DE-588)1020241446 trl mitp Verlags GmbH & Co. KG (DE-588)1065362072 pbl Erscheint auch als Online-Ausgabe 978-3-7475-0037-8 Erscheint auch als Online-Ausgabe 9783747500385 DNB Datenaustausch application/pdf http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=031837821&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA Inhaltsverzeichnis |
spellingShingle | Lapan, Maxim Deep Reinforcement Learning das umfassende Praxis-Handbuch Deep Learning (DE-588)1135597375 gnd Bestärkendes Lernen Künstliche Intelligenz (DE-588)4825546-4 gnd Maschinelles Lernen (DE-588)4193754-5 gnd |
subject_GND | (DE-588)1135597375 (DE-588)4825546-4 (DE-588)4193754-5 |
title | Deep Reinforcement Learning das umfassende Praxis-Handbuch |
title_alt | Deep reinforcement learning hands-on |
title_auth | Deep Reinforcement Learning das umfassende Praxis-Handbuch |
title_exact_search | Deep Reinforcement Learning das umfassende Praxis-Handbuch |
title_full | Deep Reinforcement Learning das umfassende Praxis-Handbuch Maxim Lapan ; Übersetzung aus dem Englischen von Knut Lorenzen |
title_fullStr | Deep Reinforcement Learning das umfassende Praxis-Handbuch Maxim Lapan ; Übersetzung aus dem Englischen von Knut Lorenzen |
title_full_unstemmed | Deep Reinforcement Learning das umfassende Praxis-Handbuch Maxim Lapan ; Übersetzung aus dem Englischen von Knut Lorenzen |
title_short | Deep Reinforcement Learning |
title_sort | deep reinforcement learning das umfassende praxis handbuch |
title_sub | das umfassende Praxis-Handbuch |
topic | Deep Learning (DE-588)1135597375 gnd Bestärkendes Lernen Künstliche Intelligenz (DE-588)4825546-4 gnd Maschinelles Lernen (DE-588)4193754-5 gnd |
topic_facet | Deep Learning Bestärkendes Lernen Künstliche Intelligenz Maschinelles Lernen |
url | http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=031837821&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |
work_keys_str_mv | AT lapanmaxim deepreinforcementlearninghandson AT lorenzenknut deepreinforcementlearninghandson AT mitpverlagsgmbhcokg deepreinforcementlearninghandson AT lapanmaxim deepreinforcementlearningdasumfassendepraxishandbuch AT lorenzenknut deepreinforcementlearningdasumfassendepraxishandbuch AT mitpverlagsgmbhcokg deepreinforcementlearningdasumfassendepraxishandbuch |