Skalierbare KI/ML-Infrastrukturen: Evaluieren, Automatisieren, Praxis
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Buch |
Sprache: | German |
Veröffentlicht: |
Bonn
Rheinwerk
2023
|
Ausgabe: | 1. Auflage |
Schriftenreihe: | Rheinwerk Computing
|
Schlagworte: | |
Online-Zugang: | Inhaltstext Inhaltsverzeichnis Inhaltsverzeichnis |
Beschreibung: | Zusatz auf dem Cover: Kubernetes- und OpenShift-Cluster mit NVIDIAs Datacenter-GPUs, Skalierbare und resiliente Infrastrukturen in der Cloud und On-Prem, Vollautomation und Kosteneffizienz mit IaC und Operatoren |
Beschreibung: | 468 Seiten Illustrationen, Diagramme 24 cm x 19 cm |
ISBN: | 9783836273930 3836273934 |
Internformat
MARC
LEADER | 00000nam a22000008c 4500 | ||
---|---|---|---|
001 | BV048674744 | ||
003 | DE-604 | ||
005 | 20230227 | ||
007 | t | ||
008 | 230124s2023 gw a||| |||| 00||| ger d | ||
015 | |a 22,N43 |2 dnb | ||
016 | 7 | |a 1270836102 |2 DE-101 | |
020 | |a 9783836273930 |c Festeinband : EUR 79.90 (DE), EUR 82.20 (AT), CHF 102.90 (freier Preis) |9 978-3-8362-7393-0 | ||
020 | |a 3836273934 |9 3-8362-7393-4 | ||
024 | 3 | |a 9783836273930 | |
028 | 5 | 2 | |a Bestellnummer: 459/07393 |
035 | |a (OCoLC)1357082519 | ||
035 | |a (DE-599)DNB1270836102 | ||
040 | |a DE-604 |b ger |e rda | ||
041 | 0 | |a ger | |
044 | |a gw |c XA-DE-NW | ||
049 | |a DE-92 |a DE-20 |a DE-523 |a DE-355 |a DE-473 |a DE-M347 |a DE-1102 |a DE-898 |a DE-573 | ||
084 | |a ST 300 |0 (DE-625)143650: |2 rvk | ||
084 | |8 1\p |a 004 |2 23sdnb | ||
100 | 1 | |a Liebel, Oliver |e Verfasser |0 (DE-588)1042738157 |4 aut | |
245 | 1 | 0 | |a Skalierbare KI/ML-Infrastrukturen |b Evaluieren, Automatisieren, Praxis |c Oliver Liebel |
250 | |a 1. Auflage | ||
264 | 1 | |a Bonn |b Rheinwerk |c 2023 | |
300 | |a 468 Seiten |b Illustrationen, Diagramme |c 24 cm x 19 cm | ||
336 | |b txt |2 rdacontent | ||
337 | |b n |2 rdamedia | ||
338 | |b nc |2 rdacarrier | ||
490 | 0 | |a Rheinwerk Computing | |
500 | |a Zusatz auf dem Cover: Kubernetes- und OpenShift-Cluster mit NVIDIAs Datacenter-GPUs, Skalierbare und resiliente Infrastrukturen in der Cloud und On-Prem, Vollautomation und Kosteneffizienz mit IaC und Operatoren | ||
650 | 0 | 7 | |a Kubernetes |0 (DE-588)1153019000 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Künstliche Intelligenz |0 (DE-588)4033447-8 |2 gnd |9 rswk-swf |
650 | 0 | 7 | |a Maschinelles Lernen |0 (DE-588)4193754-5 |2 gnd |9 rswk-swf |
653 | |a Datacenter | ||
653 | |a Passthrough MIG vGPU | ||
653 | |a VMware vsphere | ||
653 | |a MLOps GitOps AI End-to-end | ||
653 | |a On-Premises Cloud Hybrid On Prem | ||
653 | |a Kubernetes- OpenShift-Cluster | ||
653 | |a NVIDIA -GPUs | ||
653 | |a KI/ML | ||
653 | |a Buch | ||
689 | 0 | 0 | |a Künstliche Intelligenz |0 (DE-588)4033447-8 |D s |
689 | 0 | 1 | |a Maschinelles Lernen |0 (DE-588)4193754-5 |D s |
689 | 0 | 2 | |a Kubernetes |0 (DE-588)1153019000 |D s |
689 | 0 | |5 DE-604 | |
710 | 2 | |a Rheinwerk Verlag |0 (DE-588)1081738405 |4 pbl | |
856 | 4 | 2 | |m X:MVB |q text/html |u http://deposit.dnb.de/cgi-bin/dokserv?id=f40698a7aa2f4ae1bf337fea6458daab&prov=M&dok_var=1&dok_ext=htm |3 Inhaltstext |
856 | 4 | 2 | |m B:DE-101 |q application/pdf |u https://d-nb.info/1270836102/04 |3 Inhaltsverzeichnis |
856 | 4 | 2 | |m DNB Datenaustausch |q application/pdf |u http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=034049235&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |3 Inhaltsverzeichnis |
883 | 1 | |8 1\p |a vlb |d 20221021 |q DE-101 |u https://d-nb.info/provenance/plan#vlb | |
943 | 1 | |a oai:aleph.bib-bvb.de:BVB01-034049235 |
Datensatz im Suchindex
_version_ | 1807956319182782464 |
---|---|
adam_text |
AUF
EINEN
BLICK
1
VORWORT
.
19
TEIL
I
TECHNISCHE
FOUNDATIONS
ZU
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
2
AM
ANFANG
WAR
DIE
DUNKELHEIT
.
41
3
HIGH-LEVEL-VORBETRACHTUNGEN
ZUR
IMPLEMENTIERUNG
VON
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
.
65
4
NVIDIA-DATACENTER-GPUS
UND
MEHR-TECHNISCHER
BACKGROUND
.
93
TEIL
II
IMPLEMENTIERUNG
VON
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
5
IMPLEMENTIERUNG:
VSPHERE
ALS
HYPERVISOR
FUER
SKALIERBARE
ML-INFRASTRUKTUREN
.
153
6
DER
NVIDIA
AI
ENTERPRISE
(NVAIE)-STACK
-
INFRASTRUKTURRELEVANTE
BETRACHTUNGEN
.
181
7
VGPU7NVAIE-PREFLIGHTS:
LIZENZIERUNG
.
189
8
KUBERNETES-BASIERTE
PLATTFORMEN
FUER
SKALIERBARE,
GPU-ACCELERATED
KI/ML-CLUSTER
.
209
9
PREFLIGHTS
FUER
GPU-ACCELERATED
CONTAINER-CLUSTER:
OPERATOREN
.
241
10
OPENSHIFT
(GPU-ACCELERATED)
-
MULTIPLATFORM
(CLOUD
UND
ON-PREMISES)
.
273
11
GKE
-
GOOGLE
KUBERNETES
ENGINE
CLUSTER
(GPU-ACCELERATED)
.
389
TEIL
III
ML-STACKS
FUER
SKALIERBARE
KI/ML-INFRASTRUKTUREN
12
CI/CD-PIPELINES,
GITOPS
UND
MLOPS
.
399
13
ML-PIPELINE
UND
AI-END-TO-END-LMPLEMENTIERUNGEN
MIT
KUBEFLOW/VERTEX
AI,
OPEN
DATA
HUB
UND
NVIDIA
AI
ENTERPRISE
.
411
14
THE
ROAD
AHEAD
.
459
INHALT
1
VORWORT
19
1.1
VORBEMERKUNGEN.
28
1.1.1
VERWENDETE
FORMATIERUNGEN
.
29
1.1.2
BREITES
BUCH-/SEITENFORMAT
.
29
1.1.3
KLARTEXT
.
29
1.1.4
KI/ML-BEGRIFFLICHKEITEN
.
30
1.1.5
WEITERFUEHRENDE
HINWEISE
.
30
1.1.6
VERWENDETE
TESTSYSTEME
.
30
1.1.7
IM
BUCH
VERWENDETE
GRAFIKEN
.
31
1.2
WAS
DIESES
BUCH
SEIN
BZW.
NICHT
SEIN
SOLL
.
31
1.2.1
WAS
ES
SEIN
SOLL
.
31
1.2.2
WAS
ES
NICHT
SEIN
SOLL
-
UND
NICHT
IST
.
32
1.2.3
SCOPE
UND
FOKUS
DES
BUCHES
.
32
1.2.4
WISSENSAUFBAU
.
33
1.3
WIE
DIESES
BUCH
ZU
LESEN
IST
.
34
1.4
THEMATISCHER
UEBERBLICK
-
WAS
WIRD
IN
WELCHEN
KAPITELN
BEHANDELT
.
34
TEIL
I
TECHNISCHE
FOUNDATIONS
ZU
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
2
AM
ANFANG
WAR
DIE
DUNKELHEIT
41
2.1
EINE
KURZE
EINFUEHRUNG:
KI/ML-SYSTEME
-
UND
ALLES
WIRD
GUT.
ODER
EHER
NICHT?
.
42
2.1.1
HISTORISCHES
-
KURZ
UND
KOMPAKT
.
42
2.1.2
KL
AS
A
PANACEA?
.
43
2.1.3
EINE
KURZE
EINORDNUNG:
KL,
MACHINE
LEARNING,
NEURONALE
NETZE
UND
DEEP
LEARNING
.
44
2.2
USE
CASES
FUER
KL/
ML-ANWENDUNGEN
-
AUSZUEGE
.
45
2.2.1
WER
PROFITIERT
VOM
EINSATZ
VON
KI/ML-SYSTEMEN?
MOEGLICHE
USE
CASES
IM
UEBERBLICK
.
45
2.2.2
EXEMPLARISCHE
USE
CASES
.
47
5
2.3
FEHLERFREIE
KI?
SICHER
NICHT
.
50
23.1
REGELN
UND
TRANSPARENZ
.
50
23.2
LOESUNGSANSAETZE
.
50
233
VORBEREITUNG
.
51
2.4
EINIGE
GRUNDBEGRIFFLICHKEITEN
IM
KI/ML-KONTEXT
.
52
2.4.1
MACHINE
LEARNING:
TRAINING
UND
INFERENCE
.
52
2.4.2
CNN
(CONVOLUTIONAL
NEURAL
NETWORKS)
.
53
2.43
ALLES
FLIESSEND:
FP/TF/BF
(FLOATING
POINT)
.
54
2.4.4
CPUS
UND
PARALLEL-COMPUTING
.
55
2.4.5
CPUS
MIT
ML-ERWEITERUNGEN
.
56
2.4.6
CUDA
(CORES)
.
57
2.4.7
TENSOR
(CORES)
.
58
2.4.8
PRAEZISION,
PERFORMANCE
UND
KOSTEN
.
60
2.4.9
TENSOR-CORE-EFFIZIENZ
UND
MIXED/REDUCED
PRECISION
.
60
2.4.10
CUDA-CORES
VS.
TENSOR-CORES
.
62
2.4.11
UND
NOCH
EINMAL
PERFORMANCE:
NVIDIA
HOPPER,
TMA,
TRANSFORMER-ENGINE
UND
FP8
.
62
3
HIGH-LEVEL-VORBETRACHTUNGEN
ZUR
IMPLEMENTIERUNG
VON
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
65
3.1
BARE-METAL,
VIRTUALISIERUNG,
CONTAINERISIERUNG
.
65
3.1.1
BARE-METAL
VS.
VIRTUALISIERUNG
.
65
3.1.2
CONTAINERISIERUNG
.
66
3.1.3
DIE
KERNKOMPONENTEN/-LAYER
DES
(AUTO-)SKALIERBAREN
KL/ML-INFRA-STACKS
.
68
3.2
GENERELLE
INFRASTRUKTUR-FRAGEN:
CLOUD
VS.
ON-PREM,
MANAGED
SERVER,
HYBRIDER
MISCHBETRIEB,
DEDIZIERTE
KL-PLATTFORMEN
(NVIDIA
DGX)
.
69
3.2.1
IMPLEMENTIERUNGS
UND
KOSTENFAKTOREN
IN
DER
CLOUD
.
69
3.2.2
EXKURS:
MANAGED
SERVER
KLEINERER
SPS
ALS
GUENSTIGERE
CLOUD-ALTERNATIVE
MIT
HOEHERER
FLEXIBILITAET?
.
72
3.2.3
IMPLEMENTIERUNGS-UND
KOSTENFAKTOREN:
SELF-HOSTED
.
72
3.2.4
DATENSICHERHEIT
.
75
3.2.5
STORAGE
.
75
3.2.6
NETZWERK
.
76
3.2.7
HYBRIDER
ANSATZ:
ON-PREM
UND
CLOUD
(PAY-PER-USE)
.
76
3.2.8
ALLES
COOL?
IN
DER
CLOUD
OFT
EHER
NICHT.
TEMPERATUR-,
PERFORMANCE
UND
DAMIT
KOSTENFRAGEN
.
77
3.2.9
GENERELLE
FUNKTIONS-UND
LIZENZKOSTEN-BETRACHTUNGEN:
VGPU
VS.
MIG
.
79
6
3.2.10
FUER
GROESSERE
BUDGETS:
OUT-OF-THE-BOX-,
READY-TO-USE-ML-SERVER
(NVIDIA
DGX)
.
81
3.2.11
DGX:
TECHNISCHE
ECKDATEN
UND
BLICK
UNTER
DIE
HAUBE
.
82
3.2.12
HPE
ML
UND
WIEDER
NVIDIA
.
84
3.2.13
MIETE
VON
RZ-TAUGLICHER
HARDWARE
UND
BEREITSTELLUNG
IM
EIGENEN
RZ
.
84
33
ENTSCHEIDUNGSHILFE:
REGULAERE
GPU-SERVER,
KI/ML-BOLIDEN
WIE
DGX
ODER
ALLES
IN
DIE
CLOUD?.
85
3.3.1
KMU
.
85
3.3.2
GROESSERE
UNTERNEHMEN
UND
KONZERNE
.
86
3.4
GENERELLE
GPU-HARDWARE-FRAGEN:
NVIDIA
VS.
AMD
VS.
INTEL
VS.
GOOGLES
TPU
.
86
3.4.1
VORBETRACHTUNGEN:
WAS
DARF
ES
DENN
SEIN?
.
86
3.4.2
GPU
VS.
TPU
.
ODER
DOCH
GEMEINSAM?
.
88
3.4.3
NVIDIA
.
88
3.4.4
AMD
.
90
3.4.5
INTEL
.
91
3.4.6
FAZIT:
GPU-PROVIDER
.
92
4
NVIDIA-DATACENTER-GPUS
UND
MEHR
-
TECHNISCHER
BACKGROUND
93
4.1
NVIDIA
UND
ML-CLUSTER
.
93
4.2
PARTITIONIERTE
GPUS
MIT
NVIDIAS
VGPU
UND
MIG
.
95
4.2.1
VORBETRACHTUNGEN
UND
SCOPE
.
95
4.2.2
VORBETRACHTUNGEN:
PARTITIONIERTE
GPUS
MIT
VGPU
UND
MIG
.
96
4.2.3
NVIDIAS
VGPU
UND
(LEIDER
NOCH
KEIN)
CLOUD-EINSATZ
.
97
4.3
VGPU-VIRTUAL
GPU
.
97
4.3.1
GENERELLE
VGPU-ARCHITEKTUR
.
97
4.3.2
DETAILS
ZUR
FUNKTIONSWEISE
.
98
4.3.3
TIME-SLICED
VGPU
.
100
4.3.4
PASSTHROUGH
GPU
VS.
VGPU
IM
HYPERVISOR
.
101
4.3.5
VGPU-PRODUKTE
.
102
4.3.6
VGPU-VERSIONEN
.
102
4.3.7
VGPU-FEATURES
JE
NACH
PRODUKT
.
103
4.3.8
VGPU-ARBEITSWEISE
(KONZEPTIONELL)
.
105
4.3.9
SCHEDULING-POLICIES
VON
VGPU
.
105
4.3.10
VGPU-PROFILE
UND
ZUORDNUNG
(EXEMPLARISCH:
NVIDIA
A100
40
GB)
.
108
4.3.11
KONKRETE
VGPU-PROFILE
UND
DETAILS
.
109
4.3.12
EXEMPLARISCHE
VGPU-PARTITIONSLAYOUTS
.
111
7
4.3.13
ERFORDERLICHE
VGPU-LIZENZEN
UND
ENTITLEMENTS
JE
NACH
MODELL
UND
TYP
.
112
4.3.14
UEBERSICHT
DER
VGPU-MODI
NACH
GPUS/KARTEN
.
112
4.4
MIG
-
MULTI-INSTANCE
GPU
.
113
4.4.1
MIG-FAEHIGEGPUS
.
114
4.4.2
MIG-KONZEPTE,
TERMINOLOGIEN
UND
TECHNISCHE
DETAILS
.
115
4.4.3
ALLGEMEINE
MIG-TECH-SPECS.
118
4.4.4
MIG-INSTANZEN
UND-PARTITIONEN
.
120
4.4.5
COMPUTE-INSTANZEN/COMPUTE-SUB-PARTITIONIERUNG
.
121
4.4.6
MIG-PROFILUEBERSICHTEN
(A100
UND
A30)
.
122
4.4.7
DER
A100-MIG-BLACK-HOLE-EFFEKT,
ODER:
DIE
VERSCHWUNDENEN
PARTITIONEN
.
124
4.4.8
MIG-STRATEGIEN
.
126
4.4.9
MIG-EXPOSITION:
GESAMTE
GPU
VIA
PASSTHROUGH
ODER
MIG-PARTITIONEN
PER
VM-TEMPLATE?
.
127
4.5
MIG:
MULTI-TENANCY
REVISITED
.
128
4.5.1
MODELLE
UND
KONZEPTE,
VOR
UND
NACHTEILE,
PLATTFORMSPEZIFISCHE
LIMITIERUNGEN
.
128
4.5.2
MIG,
ECHTE
TENANCY
UND
NEXT-GEN-MIG
MIT
CONFIDENTIAL
COMPUTING
.
129
4.5.3
NICHT
NUR
MIG:
DAS
PROBLEM,
PASSTHROUGH
GPUS
(AUTO-)SKALIERBAR
ANZUBIETEN
.
133
4.6
TECHNISCHE
DATEN
UND
PREISE
AUSGEWAEHLTER
NVIDIA
DATACENTER-GPUS.
134
4.6.1
SUPPORTED
NVIDIA
GPUS
OPTIMIZED
FOR
COMPUTE
(AL/ML)
WORKLOADS
.
135
4.6.2
SUPPORTED
NVIDIA
GPUS
OPTIMIZED
FOR
MIXED
WORKLOADS
.
136
4.7
GPU-TIME-SLICING
UND
GPU-OVERCOMMITMENT.
137
4.7.1
THEORETISCHE
VORBETRACHTUNGEN
.
137
4.7.2
KONZEPTE
ZUR
UMSETZUNG
.
139
4.8
NVLINK
UND
NVSWITCH:
GPU
BIG
BLOCKS
BUENDELUNG
MULTIPLER
GPUS
.
139
4.8.1
NVLINK
.
139
4.9
GPUDIRECT
(RDMA)
.
142
4.9.1
GPUDIRECT
STORAGE
.
142
4.9.2
GPUDIRECT
RDMA
.
143
4.10
GPU-PERFORMANCE
IN
ML-TRAININGS
-
BARE-METAL
VS.
VGPU/MIG
.
145
4.10.1
VORBETRACHTUNGEN
.
145
4.10.2
KONKRETES
SETUP
UND
MESSWERTE
.
146
4.11
NVIDIA-DATACENTER-PRODUKTE:
THE
ROAD
AHEAD
.
149
8
TEIL
II
IMPLEMENTIERUNG
VON
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
5
IMPLEMENTIERUNG:
VSPHERE
ALS
HYPERVISOR
FUER
SKALIERBARE
ML-INFRASTRUKTUREN
153
5.1
HARDWARE-VORAUSSETZUNGEN
UND
VORBETRACHTUNGEN
(VSPHERE/ON-PREM)
.
153
5.2
PREFLIGHTS
.
154
5.2.1
BIOS/UEFI-SETTINGS,
SR-LOV,
VSPHERE
EDITION,
DRS.
154
5.2.2
VSPHERE
7
UND
ESXI-PATCHLEVEL
.
155
5.2.3
UPDATE
7U3
UND
VMCLASSES
.
156
5.2.4
HOST-UPDATES
FUER
VSPHERE/ESXI
.
156
5.2.5
VGPU
FUER
RTX
6000/8000
UND
RTX
A5000/A6000
AKTIVIEREN
.
156
5.2.6
ECC-MEMORY
.
157
5.2.7
PREFLIGHT-CHECKS:
TOOLS
UND
TESTS
.
157
5.2.8
VIRTUALIZATION-MODE
(ACHTUNG:
WICHTIG!)
.
159
5.3
SETUPDESGPU-MANAGERS/VGPU-HOST-DRIVERS(ESXI/VSPHERE7).
160
5.3.1
NVD-AIE
ODER
NVD-VGPU,
NVIDIA
VGPU
CERTIFIED
SERVER
.
160
5.3.2
SETUP
DES
NVIDIA-VIB
(VGPU-MANAGER)
AUF
DEN
ESXIS
.
161
5.3.3
POC:
EINFACHES
PASSTHROUGH
.
162
5.4
VM-TEMPLATES
MIT
GPUS
ERSTELLEN
.
164
5.4.1
ERSTELLUNG
UND
KONFIGURATION
EINES
VM-TEMPLATES
(VGPU-VARIANTE,
OPENSHIFT)
.
165
5.4.2
ERSTELLUNG
UND
KONFIGURATION
EINES
VM-TEMPLATES
(MIG-BACKED
VGPU-VARIANTE,
OPENSHIFT)
.
167
5.4.3
ERSTELLUNG
EINES
SKALIERBAREN
PCI-PASSTHROUGH-VM-TEMPLATES
(IDENTISCHE
GPUS
PER
DYNAMIC
DIRECTPATH
IO
UND
HARDWARE-BEZEICHNER)
.
169
5.4.4
DIE
GPU-POWER-MODI
(P0-P8)
UND
(IDLE-)LEISTUNGSAUFNAHME
.
170
5.4.5
CHECKLISTE
FUER
MOEGLICHE
FEHLER
BEIM
VGPU-BETRIEB
.
170
5.5
MIG-MODE
AUF
DEM
HYPERVISOR
AKTIVIEREN
.
171
5.5.1
SETUP-VORBEREITUNGEN
.
171
5.5.2
GPU
(OHNE
REBOOT
DES
ESXI-HOSTS)
AUF
MIG-MODE
UMSTELLEN
.
173
5.5.3
MANUELLE
PARTITIONIERUNG
ANLEGEN
(NUR
ZUR
VERANSCHAULICHUNG)
.
176
9
6
DER
NVIDIA
AI
ENTERPRISE
(NVAIE)-STACK
-
INFRASTRUKTURRELEVANTE
BETRACHTUNGEN
181
6.1
VORBETRACHTUNGEN
.
181
6.2
MOTIVATION
.
182
6.3
PLATTFORMEN
FUER
NVAIE
.
183
6.4
NVAIE
VS.
VGPU
VS.
FREE
GPU
OPERATOR
.
185
6.4.1
VIBS
.
185
6.4.2
GPU-OPERATOR
.
185
6.4.3
NVAIE-FEATURES
.
186
6.5
NVAIE
IN
DER
PUBLIC
CLOUD
.
186
6.6
NVAIE
IST
PFLICHT
FUER
SKALIERBARE
ML-CLUSTER?
.
187
6.7
NVAIE
ALS
AI-END-TO-END-PLATFORM
.
187
7
VGPU-/NVAIE-PREFLIGHTS:
LIZENZIERUNG
189
7.1
GRUNDSAETZLICHES:
VGPU
VS.
NVAIE-LIZENZEN
UND
DLS
VS.
CLS
.
189
7.1.1
PREISE
UND
SLAS:
VGPU
.
190
7.1.2
PREISE
UND
SLAS:
NVAIE
.
191
7.1.3
NVIDIA-ENTITLEMENT
BEANTRAGEN
.
193
7.2
NVIDIA
LICENSING
SYSTEM
(NLS)
.
194
7.2.1
VORBETRACHTUNGEN
.
194
7.2.2
LICENSE
SERVER:
SELF-HOSTED
LICENSE
SERVER
UND
ALTERNATIVEN
.
195
7.3
LICENSE
SERVER:
DLS
VS.
CLS
.
196
7.4
SELF-HOSTED
LICENSE
SERVER:
DLS
UND
LEGACY
LICENSE
SERVER
.
197
7.4.1
LICENSE
SERVER-LEGACY-VARIANTE
(SELF-HOSTED)
.
197
7.4.2
LICENSE
SERVER
-
DLS-VARIANTE
(DLS
VIRTUAL
APPLIANCE,
ON-PREM)
.
200
7.4.3
TROUBLESHOOTING-TOKEN
DEBUGGING
.
204
7.5
CLOUD-HOSTED
LICENSE
SERVER:
CLS
.
205
7.5.1
LICENSE
SERVER-CLS-VARIANTE
(CLOUDBASIERT)
.
205
10
8
KUBERNETES-BASIERTE
PLATTFORMEN
FUER
SKALIERBARE,
GPU-ACCELERATED
KI/ML-CLUSTER
209
8.1
THE
ROAD
SO
FAR
.
209
8.2
GENERELLE
PLATTFORM-FRAGEN:
(VANILLA-)KUBERNETES-DERIVATE
UND
OPENSHIFT
IM
UEBERBLICK.
211
8.3
VANILLA
KUBERNETES
.
213
8.3.1
TEST
AND
PLAY
.
213
8.3.2
BENOETIGTE
3RD
PARTY
TOOLS
UND
ASYNCHRONE
PRODUKTZYKLEN
.
214
8.3.3
VANILLA
KUBERNETES
UND
DAS
TRAURIGE
THEMA
LTS:
GELD
VERBRENNEN?
ODER
BESSER
DOCH
NICHT?
.
214
8.3.4
RELEASES,
CHANGES
UND
KEIN
ENDE
.
215
8.3.5
VANILLA
KUBERNETES
UND
TTM-MAERCHENSTUNDEN
.
216
8.3.6
AKS,
EKS,
GKE
&
CO
.
217
8.4
VMWARES
TANZU
UND
DAS
ECKIGE,
DAS
DURCHS
RUNDE
SOLL
.
217
8.4.1
HISTORISCHES
.
217
8.4.2
TANZU
.
218
8.5
OPENSHIFT
.
219
8.6
ABSCHLIESSENDE
LTS-BETRACHTUNGEN
.
220
8.7
KUBERNETES-BASICS
-
AUFBAU
DES
SYSTEMS
.
222
8.7.1
KERNKOMPONENTEN
UND
KONZEPTE
.
222
8.7.2
KUBERNETES-SPEZIFISCHE
DIENSTE
AUF
DEN
MASTER-NODES
(CONTROLPLANE)
.
224
8.7.3
KUBERNETES-SPEZIFISCHE
DIENSTE
AUF
ALLEN
NODES
.
224
8.8
KUBERNETES-BASICS
-
RESSOURCEN/WORKLOADS
.
225
8.8.1
KUBERNETES/OPENSHIFT:
API-VERSION
UND
API-RESSOURCEN.
225
8.8.2
NAMESPACES
.
226
8.8.3
PODS
.
227
8.8.4
POD-METAHUELLEN:
DEPLOYMENTS,
STATEFULSETS,
DAEMONSETS
.
228
8.8.5
CONFIGMAPS
.
232
8.8.6
NODE-OBJEKTE
UND
NODE-LABEL
.
232
8.8.7
SERVICES
.
233
8.8.8
INGRESS
UND
ROUTEN
.
234
8.9
SONSTIGE
IM
FOLGENDEN
VERWENDETE,
KUBERNETES-SPEZIFISCHE
TOOLS
.
236
8.9.1
KUBECTL
UND
OC-BASH-COMPLETION
UND
KUBECTL-ALIAS
.
236
8.9.2
KUSTOMIZE
UND
HELM
.
238
11
9
PREF
LIGHTS
FUER
GPU-ACCELERATED
CONTAINER-CLUSTER:
OPERATOREN
241
9.1
GENERELLE
VORBETRACHTUNGEN
ZUM
THEMA
OPERATOREN
.
241
9.1.1
EINFUEHRUNG
.
242
9.1.2
WAS
IST
EIN
OPERATOR?
.
242
9.1.3
HORIZONTAL?
VERTIKAL?
BEIDES?
.
245
9.1.4
CONTROLLER-LOOPS
.
245
9.1.5
OPERATOR-KATEGORIEN
.
246
9.1.6
RED
HATS
OPERATOR
FRAMEWORK
UND
OPERATOR-SDK
.
246
9.2
OPERATOR-TYPEN
UND
MATURITAETS-LEVEL:
HELM
VS.
ANSIBLE
VS.
GO
.
247
9.2.1
OPERATOR-MATURITAETS-LEVEL
UND
-KATEGORIEN
.
247
9.2.2
OPERATOR-BUILD
.
248
9.2.3
OPERATORHUB.IO
UND
OPENSHIFT-OPERATOREN
.
249
9.3
DIE
WICHTIGE
ROLLE
VON
OPERATOREN
IM
AUTO-SKALIERBAREN
KI/ML-STACK
.
250
9.3.1
TEAM-PLAY
.
250
9.3.2
DER
GPU-OPERATOR-VERGANGENHEIT
UND
ZUKUNFT
.
250
9.4
NVIDIAS
GPU-OPERATOR
-
DIE
ARCHITEKTUR
.
251
9.4.1
DAS
GESAMTKONSTRUKT
.
251
9.4.2
GPU-OPERATOR:
UNTERSTUETZTE
HYPERVISOREN
UND
GPUS
.
252
9.4.3
ALL-IN-ONE
.
253
9.4.4
GPU-OPERATOR
UND
DGX
.
253
9.4.5
DIE
EINZELKOMPONENTEN
DES
GPU-OPERATORS
IM
HIGH-LEVEL-UEBERBLICK
.
253
9.4.6
PREFLIGHT:
DER
NFD-OPERATOR
.
256
9.4.7
DIE
EINZELKOMPONENTEN
DES
GPU-OPERATORS
IM
DETAIL
.
257
9.5
AUTOMATISCHE
PROVISIONIERUNG
EINES
NODES
DURCH
DEN
GPU-OPERATOR
.
258
9.5.1
K8S-DEVICE-PLUGIN
.
259
9.5.2
GPU
FEATURE
DISCOVERY
.
259
9.5.3
DRIVER
.
261
9.5.4
CONTAINER-TOOLKIT
.
261
9.5.5
DCGM/DCGM-EXPORTER
.
261
9.5.6
DER
MIG-MANAGER
.
261
9.5.7
MIG-MANAGER
UND
ASSOZIIERTE
CONFIGMAP
.
264
9.5.8
MIG-STRATEGIES:
MIXED
VS.
SINGLE
IN
DER
PRAXIS
.
266
9.5.9
CUSTOM-MIG-CONFIGMAP
.
267
9.6
NVIDIAS
NETWORK-OPERATOR
-
DIE
ARCHITEKTUR
.
268
9.6.1
VORBETRACHTUNGEN
UND
UEBERSICHT
.
268
9.6.2
ARBEITSWEISE
(HIGH-LEVEL)
.
269
12
9.7
KOMPONENTEN
DES
NETWORK-OPERATORS
IM
UEBERBLICK
.
270
9.7.1
MOFED
(NVIDIA_MLNX_OFED)
DRIVER
.
270
9.7.2
KUBERNETES
RDMA
SHARED
DEVICE
PLUGIN
.
271
9.7.3
NVIDIA
PEER
MEMORY
DRIVER
.
271
9.7.4
SONSTIGE
WICHTIGE
KOMPONENTEN
.
271
10
OPENSHIFT
(GPU-ACCELERATED)
-
MULTIPLATFORM
(CLOUD
UND
ON-PREMISES)
273
10.1
THEORETISCHE
VORBETRACHTUNGEN
.
273
10.1.1
PREFLIGHTS:
NVIDIA-ENTITLEMENTS/-LIZENZEN,
LIZENZSERVER
.
274
10.1.2
FUNKTIONSWEISE
-
HIGH-LEVEL-UEBERBLICK
.
274
10.2
KONZEPTIONELLE
VORBETRACHTUNGEN
ZUM
SETUP
(ON-PREM
MIT
VSPHERE)
.
275
10.2.1
UEBERBLICK
.
275
10.2.2
SETUP-PROZEDUREN
GPU-ACCELERATED
OPENSHIFT
IPI
ON
VSPHERE
-
SCHEMATISCH
.
276
10.3
ON-PREMISES:
OPENSHIFT
4.10-SETUP
-
INSTALLER
PROVISIONED
INFRASTRUCTURE
(IPI)
AUF
VSPHERE
.
277
10.3.1
PREFLIGHTS:
INFRASTRUKTUR
UND
OPENSHIFT-CLUSTER
.
277
10.3.2
GENERELLE
TOOL-HINWEISE
ZU
ALLEN
OPENSHIFT-SETUPS
(AWS,
GCP,
VSPHERE
&
CO.)
.
277
10.3.3
DER
OPENSHIFT-INSTALLER:
TERRAFORM
IN
SCHOEN
.
278
10.3.4
VORBETRACHTUNGEN:
CLUSTER
SIZING
.
279
10.3.5
ZUSAMMENFASSUNG
DER
TECHNISCHEN
PREFLIGHTS
FUER
DAS
VSPHERE-SETUP
.
279
10.3.6
ACHTUNG,
WICHTIG:
DNS-SETTINGS
.
280
10.3.7
DNS-REVERSE-ZONEN
.
281
10.3.8
VSPHERE-HA
UND
OPENSHIFT-INSTALLER
(OVA
UPLOAD
FAILS
IN
SINGLE
DATASTORE)
.
281
10.3.9
INSTALL-CONFIG.YAML
FUER
VSPHERE-IPI-LNSTALLATION
(AUSZUEGE)
.
282
10.3.10
ROLLOUT
.
283
10.3.11
DER
POST-ROLLOUT-ZUSTAND
.
286
10.4
PREFLIGHTS
FUER
SKALIERBARE
GPU-NODES
UNTER
OPENSHIFT:
MACHINESETS,
MACHINECONFIGS
UND
MACHINE-/CLUSTER-AUTOSCALER
.
286
10.4.1
VORBETRACHTUNGEN
.
287
10.4.2
CLUSTER-OPERATOREN
UND
MACHINE*-RESSOURCEN
.
287
10.4.3
MACHINECONFIGS
.
289
10.4.4
.
290
10.4.5
KOMPONENTEN
DES
MCO
.
290
13
10.4.6
MACHINECONFIGPOOL
.
291
10.4.7
MACHINES
UND
MACHINESETS,
SKALIERUNG
.
292
10.5
CLUSTER-AUTOSCALER/MACHINE-AUTOSCALER
.
294
10.5.1
HIGH-LEVEL-BETRACHTUNG
.
294
10.5.2
MACHINE-AUTOSCALER
.
295
10.5.3
CLUSTER-AUTOSCALER
.
295
10.5.4
THRESHOLDS
.
296
10.5.5
ZU
BEACHTENDE
PUNKTE
.
297
10.5.6
GPU-VM-TEMPLATE
(VSPHERE)
IN
MACHINESET
EINBINDEN
.
298
10.5.7
GPU-MACHINECONFIGPOOL
UND
CUSTOMISIERTES
MACHINESET
FUER
SKALIERBARE
GPU-NODES
ERZEUGEN
.
299
10.5.8
SKALIERUNG
DES
NEUEN
GPU-MACHINESETS
.
303
10.5.9
EXEMPLARISCHE
ERZEUGUNG
EINES
GPU-MACHINESETS
UNTER
AWS
.
304
10.5.10
FAZIT
.
306
10.6
VGPU-/MIG-SPEZIFISCHES
SETUP
DES
OPENSHIFT-CLUSTERS:
NFD
UND
GPU-OPERATOR
.
306
10.6.1
HISTORISCHES
-
NVIDIA-DRIVER-BUILD
MIT
RED
HAT
ENTITLEMENTS
.
306
10.6.2
KERNEL
FUER
DRIVER-DAEMONSET
ZU
NEU?
ACHTUNG
BEI
OPENSHIFT-RELEASE-UPDATES
.
307
10.6.3
INSTALLATIONSVERFAHREN,
GENERELLE
OPERATOR-SETTINGS
.
307
10.6.4
GPU-MANAGER-MANAGED
MIG-MODE
UND
VGPU
.
308
10.6.5
NFD-OPERATOR-INSTALLATION
UND
-KONFIGURATION
.
308
10.6.6
GPU-OPERATOR-LNSTALLATION
UND
-KONFIGURATION
.
311
10.6.7
LICENSE-CONFIGMAP
.
313
10.6.8
IMAGEPULLSECRET
FUER
DRIVER-IMAGES
AUS
DER
NGC-REGISTRY
.
315
10.6.9
DIE
CLUSTERPOLICY-CR
(GPU-OPERATOR)
.
316
10.7
AUTOMATISCHES
VGPU-NODE-SETUP
PER
OPERATOR
-
OPENSHIFT-MACHINESET
MIT
TESLA
T4
.
320
10.7.1
ROLLOUT
DER
CLUSTERPOLICY-CR
.
320
10.7.2
STATUS
AUF
DEN
ESXI-HOSTS
.
322
10.7.3
ANALYSE
DES
AUSGEROLLTEN
(V)GPU-STACKS.
324
10.8
AUTOMATISCHES
MIG-SLICE-SETUP
PER
OPERATOR
-
A30
ON-PREMISES
.
327
10.8.1
MIG
IM
PCI
PASSTHROUGH
(A30
ON-PREMISES),
PARTITIONIERUNG
DURCH
DEN
MIG-MANAGER
.
328
10.8.2
OPENSHIFT-MACHINESET
UND
DEFAULT-MIG-SETTINGS
.
328
10.8.3
SKALIERUNG
DES
MACHINESETS
.
330
10.8.4
TEILEN?
ODER
LIEBER
DOCH
NICHT?
.
332
14
10.9
CLOUD:
GPU-MACHINESETS
IN
OPENSHIFT
4.10
UNTER
GCP
MIT
ALOO-LNSTANZEN
(MIG-PARTITIONEN
VIA
OPERATOR)
.
333
10.9.1
VORBETRACHTUNGEN
.
333
10.9.2
VERFUEGBARE
VM-INSTANZEN
(GCP)
MIT
GPU
.
334
10.9.3
SETUP-PROZEDUREN-SCHEMATISCH
.
334
10.9.4
PREFLIGHTS
-
GCP-KONTINGENTE
GEGEBENENFALLS
ERHOEHEN
.
335
10.9.5
PREFLIGHTS
-
DOMAIN,
DNS
UND
APIS
.
335
10.9.6
SERVICE-ACCOUNT
ZUR
OPENSHIFT-CLUSTER-ERZEUGUNG
.
337
10.9.7
ANPASSUNGEN
DER
INSTALL-CONFIG.YAML,
ROLLOUT
DES
CLUSTERS
.
338
10.9.8
SETUP
DER
GPU-NODES
.
341
10.9.9
EXTRAKTION,
ANPASSUNG
UND
RE-IMPORT
MACHINESET
UND
MCP
.
342
10.9.10
SKALIERUNG
DES
NEUEN
GPU-MACHINESETS
.
345
10.9.11
CHECK
DER
PROVISIONIERTEN
GPU-NODES
.
346
10.9.12
NFD
UND
GPU-OPERATOR
.
346
10.9.13
MIG-MODE
AKTIVIEREN,
MIG-PARTITION-SIZE
FUER
A100
EINSTELLEN
.
348
10.9.14
DEBUGGING
UND
TROUBLESHOOTING
.
352
10.10
GPU-SHARING/-OVERCOMMITMENT.
353
10.10.1
KONZEPT-RECAP
UND
PRAKTISCHE
UMSETZUNG
.
353
10.10.2
SETUP
(OPENSHIFT)
.
355
10.10.3
SHARED
WORKLOAD
TESTEN
.
356
10.10.4
GPU-SHARING-KONFIGURATION
PER
NODE
ZUR
LAUFZEIT
AENDERN
.
358
10.10.5
GPU
SHARING
MIT
VGPU
.
359
10.10.6
GPU-SHARING
MIT
MIG-SLICES
.
360
10.10.7
GPU-SHARING
IN
DER
GCP-CLOUD
ALS
KURZES
POC
.
366
10.11
SETUP
DES
NETWORK-OPERATORS
(OPENSHIFT
ON
VSPHERE
[IPI])
FUER
GPUDIRECT
RDMA
.
371
10.11.1
PREFLIGHTS
.
371
10.11.2
HIGH-LEVEL-WORKFLOWFUER
DEN
NETWORK-OPERATOR
.
378
10.11.3
NETWORK-OPERATOR
UND
NFD-CR
.
379
10.11.4
TESTS
NACH
ERFOLGREICHEM
ROLLOUT
.
380
10.11.5
GPUDIRECT-RDMA-TEST
MITMACVLAN
.
382
10.11.6
CONNECT-TESTS
.
383
10.11.7
EIN
(NICHT
WIRKLICH
RUNDES)
FAZIT
.
385
10.12
KI/ML-SYSTEM-PERFORMANCE-TEST
(OPENSHIFT
ON
DGX)
.
386
10.13
GPU-DASHBOARD
FUER
OPENSHIFT
.
387
15
11
GKE
-
GOOGLE
KUBERNETES
ENGINE
CLUSTER
(GPU-ACCELERATED)
389
11.1
UEBERBLICK
.
389
11.1.1
GENERELLE
PREFLIGHTS:
GPU-VERFUEGBARKEIT
NACH
REGIONEN/ZONEN,
GEEIGNETE
INSTANZTYPEN
.
389
11.2
SETUP-VARIANTE
1:
GKE-CLUSTER
MIT
SEPARATEM
NODE-POOL
FUER
GPU-NODES
.
390
11.2.1
SETUP
.
390
11.2.2
ROLLOUT
DES
GPU-OPERATORS
.
392
11.3
SETUP-VARIANTE
2:
GPU-CLUSTER
AUF
GKE
DIREKT
AUSROLLEN
.
395
TEIL
III
ML-STACKS
FUER
SKALIERBARE
KI/ML-INFRASTRUKTUREN
12
CI/CD-PIPELINES,
GITOPS
UND
MLOPS
399
12.1
VON
DER
(ML-)INSEL
ZUR
PIPELINE
.
399
12.2
CI/CD
UND
GITOPS
.
400
12.2.1
CI/CD
.
400
12.2.2
GITOPS
.
401
12.3
GITOPS-PIPELINE-MODELLE
.
401
12.3.1
PULL-VS.
PUSH-BASED
.
401
12.3.2
PUSH-BASED
.
402
12.3.3
PULL-BASED
.
403
12.3.4
MULTIPLE
STAGES/APPLICATIONS
.
404
12.4
MLOPS,
LTS
UND
PORTIERBARKEIT
.
404
12.4.1
MLOPS
UND
CRISP-DM
.
406
12.4.2
MLOPS
UND
ML-PIPELINES-TECHNISCHE
FOUNDATION/SCHEMATISCH
.
407
16
13
ML-PIPELINE
UND
AL-END-TO-END-IMPLEMENTIERUNGEN
MIT
KUBEFLOW/VERTEX
AL,
OPEN
DATA
HUB
UND
NVIDIA
AI
ENTERPRISE
411
13.1
ML-PIPELINE-IMPLEMENTIERUNGEN
IN
KUBERNETES-BASIERTEN
CLUSTERN
.
411
13.1.1
DER
(KI/ML-)PIPELINE-ANSATZ
.
411
13.1.2
END-TO-END-AI-PLATTFORMEN
UND
WORKFLOWS
.
412
13.1.3
DAS
GENERELLE
FINDUNGSPROBLEM
.
413
13.1.4
CONTAINERISIERTE
ML-PIPELINES
UND
SEGEN
UND
FLUCH
DER
MODULARITAET
.
414
13.1.5
KUBERNETES/KUBEFLOW
TO
THE
RESCUE?
GENAU
BETRACHTET
EHER
(NOCH)
NICHT
.
415
13.1.6
EINE
LOESUNG
.
416
13.2
KUBEFLOW
.
417
13.2.1
KUBEFLOW-KOMPONENTEN
IM
UEBERBLICK
.
417
13.2.2
ENTWICKLUNG
UND
MODULE
(AUSZUEGE)
.
418
13.2.3
DIE
KERNKOMPONENTEN
.
419
13.2.4
ALLTOGETHER?
.
420
13.2.5
ISTIO
.
421
13.2.6
KUBEFLOW
WAR
GESTERN
-
ES
LEBE
VERTEX
AI.
NA,
ZUMINDEST
GANZ
SICHER
BIS
.
SAGEN
WIR
MAL:
MORGEN
MITTAG
.
421
13.3
HANDS-ON:
KUBEFLOW
UNTER
GKE
IN
DER
PRAXIS
.
422
13.3.1
PREFLIGHTS
.
422
13.3.2
SETUP
.
423
13.3.3
GRAFISCHE
OBERFLAECHEN
.
428
13.4
OPEN
DATA
HUB
.
430
13.4.1
DIE
UNTERSCHIEDE
ZU
KUBEFLOW
-
EIN
HIGH-LEVEL-UEBERBLICK
.
430
13.4.2
OPEN
DATA
HUB
(ODH)
-
ARCHITEKTUR
UND
ARBEITSWEISE
.
430
13.4.3
DIEODH-MODULE
.
432
13.5
HANDS-ON:
OPEN-DATA-HUB-SETUP
UNTER
OPENSHIFT
.
433
13.5.1
PREFLIGHTS
.
433
13.5.2
SETUP
.
434
13.5.3
POST
ROLLOUT
.
439
17
13.6
NVIDIA
AI
ENTERPRISE
(AL-END-TO-END-RELEVANTE
BETRACHTUNGEN)
.
442
13.6.1
NVIDIAS
AI-END-TO-END-STACK
-
RELOADED
.
443
13.6.2
DIE
MODULE
IM
DETAIL
.
444
13.6.3
NVIDIAS
AI-END-TO-END-PATTERNS
.
445
13.7
HANDS-ON:
NVIDIA
AI
ENTERPRISE
(AI
END-TO-END)
UNTER
OPENSHIFT
.
447
13.7.1
NVIDIA
MORPHEUS
AI
ENGINE
.
447
13.7.2
TRITON
INFERENCE
SERVER
.
448
13.7.3
MORPHEUS
MLFLOW
TRITON
PLUGIN
.
449
13.7.4
VORBETRACHTUNGEN:
AI
END-TO-END
MIT
MORPHEUS
AI
ENGINE
.
449
13.7.5
PREFLIGHTS
.
450
13.7.6
HANDS-ON
.
450
13.7.7
CYBERSECURITY
MIT
MORPHEUS
AI
(RED
HAT
DEVELOPER)
.
458
13.7.8
NVIDIA
LAUNCHPAD
.
458
14
THE
ROAD
AHEAD
459
INDEX
.
463
18 |
adam_txt |
AUF
EINEN
BLICK
1
VORWORT
.
19
TEIL
I
TECHNISCHE
FOUNDATIONS
ZU
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
2
AM
ANFANG
WAR
DIE
DUNKELHEIT
.
41
3
HIGH-LEVEL-VORBETRACHTUNGEN
ZUR
IMPLEMENTIERUNG
VON
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
.
65
4
NVIDIA-DATACENTER-GPUS
UND
MEHR-TECHNISCHER
BACKGROUND
.
93
TEIL
II
IMPLEMENTIERUNG
VON
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
5
IMPLEMENTIERUNG:
VSPHERE
ALS
HYPERVISOR
FUER
SKALIERBARE
ML-INFRASTRUKTUREN
.
153
6
DER
NVIDIA
AI
ENTERPRISE
(NVAIE)-STACK
-
INFRASTRUKTURRELEVANTE
BETRACHTUNGEN
.
181
7
VGPU7NVAIE-PREFLIGHTS:
LIZENZIERUNG
.
189
8
KUBERNETES-BASIERTE
PLATTFORMEN
FUER
SKALIERBARE,
GPU-ACCELERATED
KI/ML-CLUSTER
.
209
9
PREFLIGHTS
FUER
GPU-ACCELERATED
CONTAINER-CLUSTER:
OPERATOREN
.
241
10
OPENSHIFT
(GPU-ACCELERATED)
-
MULTIPLATFORM
(CLOUD
UND
ON-PREMISES)
.
273
11
GKE
-
GOOGLE
KUBERNETES
ENGINE
CLUSTER
(GPU-ACCELERATED)
.
389
TEIL
III
ML-STACKS
FUER
SKALIERBARE
KI/ML-INFRASTRUKTUREN
12
CI/CD-PIPELINES,
GITOPS
UND
MLOPS
.
399
13
ML-PIPELINE
UND
AI-END-TO-END-LMPLEMENTIERUNGEN
MIT
KUBEFLOW/VERTEX
AI,
OPEN
DATA
HUB
UND
NVIDIA
AI
ENTERPRISE
.
411
14
THE
ROAD
AHEAD
.
459
INHALT
1
VORWORT
19
1.1
VORBEMERKUNGEN.
28
1.1.1
VERWENDETE
FORMATIERUNGEN
.
29
1.1.2
BREITES
BUCH-/SEITENFORMAT
.
29
1.1.3
KLARTEXT
.
29
1.1.4
KI/ML-BEGRIFFLICHKEITEN
.
30
1.1.5
WEITERFUEHRENDE
HINWEISE
.
30
1.1.6
VERWENDETE
TESTSYSTEME
.
30
1.1.7
IM
BUCH
VERWENDETE
GRAFIKEN
.
31
1.2
WAS
DIESES
BUCH
SEIN
BZW.
NICHT
SEIN
SOLL
.
31
1.2.1
WAS
ES
SEIN
SOLL
.
31
1.2.2
WAS
ES
NICHT
SEIN
SOLL
-
UND
NICHT
IST
.
32
1.2.3
SCOPE
UND
FOKUS
DES
BUCHES
.
32
1.2.4
WISSENSAUFBAU
.
33
1.3
WIE
DIESES
BUCH
ZU
LESEN
IST
.
34
1.4
THEMATISCHER
UEBERBLICK
-
WAS
WIRD
IN
WELCHEN
KAPITELN
BEHANDELT
.
34
TEIL
I
TECHNISCHE
FOUNDATIONS
ZU
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
2
AM
ANFANG
WAR
DIE
DUNKELHEIT
41
2.1
EINE
KURZE
EINFUEHRUNG:
KI/ML-SYSTEME
-
UND
ALLES
WIRD
GUT.
ODER
EHER
NICHT?
.
42
2.1.1
HISTORISCHES
-
KURZ
UND
KOMPAKT
.
42
2.1.2
KL
AS
A
PANACEA?
.
43
2.1.3
EINE
KURZE
EINORDNUNG:
KL,
MACHINE
LEARNING,
NEURONALE
NETZE
UND
DEEP
LEARNING
.
44
2.2
USE
CASES
FUER
KL/
ML-ANWENDUNGEN
-
AUSZUEGE
.
45
2.2.1
WER
PROFITIERT
VOM
EINSATZ
VON
KI/ML-SYSTEMEN?
MOEGLICHE
USE
CASES
IM
UEBERBLICK
.
45
2.2.2
EXEMPLARISCHE
USE
CASES
.
47
5
2.3
FEHLERFREIE
KI?
SICHER
NICHT
.
50
23.1
REGELN
UND
TRANSPARENZ
.
50
23.2
LOESUNGSANSAETZE
.
50
233
VORBEREITUNG
.
51
2.4
EINIGE
GRUNDBEGRIFFLICHKEITEN
IM
KI/ML-KONTEXT
.
52
2.4.1
MACHINE
LEARNING:
TRAINING
UND
INFERENCE
.
52
2.4.2
CNN
(CONVOLUTIONAL
NEURAL
NETWORKS)
.
53
2.43
ALLES
FLIESSEND:
FP/TF/BF
(FLOATING
POINT)
.
54
2.4.4
CPUS
UND
PARALLEL-COMPUTING
.
55
2.4.5
CPUS
MIT
ML-ERWEITERUNGEN
.
56
2.4.6
CUDA
(CORES)
.
57
2.4.7
TENSOR
(CORES)
.
58
2.4.8
PRAEZISION,
PERFORMANCE
UND
KOSTEN
.
60
2.4.9
TENSOR-CORE-EFFIZIENZ
UND
MIXED/REDUCED
PRECISION
.
60
2.4.10
CUDA-CORES
VS.
TENSOR-CORES
.
62
2.4.11
UND
NOCH
EINMAL
PERFORMANCE:
NVIDIA
HOPPER,
TMA,
TRANSFORMER-ENGINE
UND
FP8
.
62
3
HIGH-LEVEL-VORBETRACHTUNGEN
ZUR
IMPLEMENTIERUNG
VON
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
65
3.1
BARE-METAL,
VIRTUALISIERUNG,
CONTAINERISIERUNG
.
65
3.1.1
BARE-METAL
VS.
VIRTUALISIERUNG
.
65
3.1.2
CONTAINERISIERUNG
.
66
3.1.3
DIE
KERNKOMPONENTEN/-LAYER
DES
(AUTO-)SKALIERBAREN
KL/ML-INFRA-STACKS
.
68
3.2
GENERELLE
INFRASTRUKTUR-FRAGEN:
CLOUD
VS.
ON-PREM,
MANAGED
SERVER,
HYBRIDER
MISCHBETRIEB,
DEDIZIERTE
KL-PLATTFORMEN
(NVIDIA
DGX)
.
69
3.2.1
IMPLEMENTIERUNGS
UND
KOSTENFAKTOREN
IN
DER
CLOUD
.
69
3.2.2
EXKURS:
MANAGED
SERVER
KLEINERER
SPS
ALS
GUENSTIGERE
CLOUD-ALTERNATIVE
MIT
HOEHERER
FLEXIBILITAET?
.
72
3.2.3
IMPLEMENTIERUNGS-UND
KOSTENFAKTOREN:
SELF-HOSTED
.
72
3.2.4
DATENSICHERHEIT
.
75
3.2.5
STORAGE
.
75
3.2.6
NETZWERK
.
76
3.2.7
HYBRIDER
ANSATZ:
ON-PREM
UND
CLOUD
(PAY-PER-USE)
.
76
3.2.8
ALLES
COOL?
IN
DER
CLOUD
OFT
EHER
NICHT.
TEMPERATUR-,
PERFORMANCE
UND
DAMIT
KOSTENFRAGEN
.
77
3.2.9
GENERELLE
FUNKTIONS-UND
LIZENZKOSTEN-BETRACHTUNGEN:
VGPU
VS.
MIG
.
79
6
3.2.10
FUER
GROESSERE
BUDGETS:
OUT-OF-THE-BOX-,
READY-TO-USE-ML-SERVER
(NVIDIA
DGX)
.
81
3.2.11
DGX:
TECHNISCHE
ECKDATEN
UND
BLICK
UNTER
DIE
HAUBE
.
82
3.2.12
HPE
ML
UND
WIEDER
NVIDIA
.
84
3.2.13
MIETE
VON
RZ-TAUGLICHER
HARDWARE
UND
BEREITSTELLUNG
IM
EIGENEN
RZ
.
84
33
ENTSCHEIDUNGSHILFE:
REGULAERE
GPU-SERVER,
KI/ML-BOLIDEN
WIE
DGX
ODER
ALLES
IN
DIE
CLOUD?.
85
3.3.1
KMU
.
85
3.3.2
GROESSERE
UNTERNEHMEN
UND
KONZERNE
.
86
3.4
GENERELLE
GPU-HARDWARE-FRAGEN:
NVIDIA
VS.
AMD
VS.
INTEL
VS.
GOOGLES
TPU
.
86
3.4.1
VORBETRACHTUNGEN:
WAS
DARF
ES
DENN
SEIN?
.
86
3.4.2
GPU
VS.
TPU
.
ODER
DOCH
GEMEINSAM?
.
88
3.4.3
NVIDIA
.
88
3.4.4
AMD
.
90
3.4.5
INTEL
.
91
3.4.6
FAZIT:
GPU-PROVIDER
.
92
4
NVIDIA-DATACENTER-GPUS
UND
MEHR
-
TECHNISCHER
BACKGROUND
93
4.1
NVIDIA
UND
ML-CLUSTER
.
93
4.2
PARTITIONIERTE
GPUS
MIT
NVIDIAS
VGPU
UND
MIG
.
95
4.2.1
VORBETRACHTUNGEN
UND
SCOPE
.
95
4.2.2
VORBETRACHTUNGEN:
PARTITIONIERTE
GPUS
MIT
VGPU
UND
MIG
.
96
4.2.3
NVIDIAS
VGPU
UND
(LEIDER
NOCH
KEIN)
CLOUD-EINSATZ
.
97
4.3
VGPU-VIRTUAL
GPU
.
97
4.3.1
GENERELLE
VGPU-ARCHITEKTUR
.
97
4.3.2
DETAILS
ZUR
FUNKTIONSWEISE
.
98
4.3.3
TIME-SLICED
VGPU
.
100
4.3.4
PASSTHROUGH
GPU
VS.
VGPU
IM
HYPERVISOR
.
101
4.3.5
VGPU-PRODUKTE
.
102
4.3.6
VGPU-VERSIONEN
.
102
4.3.7
VGPU-FEATURES
JE
NACH
PRODUKT
.
103
4.3.8
VGPU-ARBEITSWEISE
(KONZEPTIONELL)
.
105
4.3.9
SCHEDULING-POLICIES
VON
VGPU
.
105
4.3.10
VGPU-PROFILE
UND
ZUORDNUNG
(EXEMPLARISCH:
NVIDIA
A100
40
GB)
.
108
4.3.11
KONKRETE
VGPU-PROFILE
UND
DETAILS
.
109
4.3.12
EXEMPLARISCHE
VGPU-PARTITIONSLAYOUTS
.
111
7
4.3.13
ERFORDERLICHE
VGPU-LIZENZEN
UND
ENTITLEMENTS
JE
NACH
MODELL
UND
TYP
.
112
4.3.14
UEBERSICHT
DER
VGPU-MODI
NACH
GPUS/KARTEN
.
112
4.4
MIG
-
MULTI-INSTANCE
GPU
.
113
4.4.1
MIG-FAEHIGEGPUS
.
114
4.4.2
MIG-KONZEPTE,
TERMINOLOGIEN
UND
TECHNISCHE
DETAILS
.
115
4.4.3
ALLGEMEINE
MIG-TECH-SPECS.
118
4.4.4
MIG-INSTANZEN
UND-PARTITIONEN
.
120
4.4.5
COMPUTE-INSTANZEN/COMPUTE-SUB-PARTITIONIERUNG
.
121
4.4.6
MIG-PROFILUEBERSICHTEN
(A100
UND
A30)
.
122
4.4.7
DER
A100-MIG-BLACK-HOLE-EFFEKT,
ODER:
DIE
VERSCHWUNDENEN
PARTITIONEN
.
124
4.4.8
MIG-STRATEGIEN
.
126
4.4.9
MIG-EXPOSITION:
GESAMTE
GPU
VIA
PASSTHROUGH
ODER
MIG-PARTITIONEN
PER
VM-TEMPLATE?
.
127
4.5
MIG:
MULTI-TENANCY
REVISITED
.
128
4.5.1
MODELLE
UND
KONZEPTE,
VOR
UND
NACHTEILE,
PLATTFORMSPEZIFISCHE
LIMITIERUNGEN
.
128
4.5.2
MIG,
ECHTE
TENANCY
UND
NEXT-GEN-MIG
MIT
CONFIDENTIAL
COMPUTING
.
129
4.5.3
NICHT
NUR
MIG:
DAS
PROBLEM,
PASSTHROUGH
GPUS
(AUTO-)SKALIERBAR
ANZUBIETEN
.
133
4.6
TECHNISCHE
DATEN
UND
PREISE
AUSGEWAEHLTER
NVIDIA
DATACENTER-GPUS.
134
4.6.1
SUPPORTED
NVIDIA
GPUS
OPTIMIZED
FOR
COMPUTE
(AL/ML)
WORKLOADS
.
135
4.6.2
SUPPORTED
NVIDIA
GPUS
OPTIMIZED
FOR
MIXED
WORKLOADS
.
136
4.7
GPU-TIME-SLICING
UND
GPU-OVERCOMMITMENT.
137
4.7.1
THEORETISCHE
VORBETRACHTUNGEN
.
137
4.7.2
KONZEPTE
ZUR
UMSETZUNG
.
139
4.8
NVLINK
UND
NVSWITCH:
GPU
BIG
BLOCKS
BUENDELUNG
MULTIPLER
GPUS
.
139
4.8.1
NVLINK
.
139
4.9
GPUDIRECT
(RDMA)
.
142
4.9.1
GPUDIRECT
STORAGE
.
142
4.9.2
GPUDIRECT
RDMA
.
143
4.10
GPU-PERFORMANCE
IN
ML-TRAININGS
-
BARE-METAL
VS.
VGPU/MIG
.
145
4.10.1
VORBETRACHTUNGEN
.
145
4.10.2
KONKRETES
SETUP
UND
MESSWERTE
.
146
4.11
NVIDIA-DATACENTER-PRODUKTE:
THE
ROAD
AHEAD
.
149
8
TEIL
II
IMPLEMENTIERUNG
VON
SKALIERBAREN
KI/ML-INFRASTRUKTUREN
5
IMPLEMENTIERUNG:
VSPHERE
ALS
HYPERVISOR
FUER
SKALIERBARE
ML-INFRASTRUKTUREN
153
5.1
HARDWARE-VORAUSSETZUNGEN
UND
VORBETRACHTUNGEN
(VSPHERE/ON-PREM)
.
153
5.2
PREFLIGHTS
.
154
5.2.1
BIOS/UEFI-SETTINGS,
SR-LOV,
VSPHERE
EDITION,
DRS.
154
5.2.2
VSPHERE
7
UND
ESXI-PATCHLEVEL
.
155
5.2.3
UPDATE
7U3
UND
VMCLASSES
.
156
5.2.4
HOST-UPDATES
FUER
VSPHERE/ESXI
.
156
5.2.5
VGPU
FUER
RTX
6000/8000
UND
RTX
A5000/A6000
AKTIVIEREN
.
156
5.2.6
ECC-MEMORY
.
157
5.2.7
PREFLIGHT-CHECKS:
TOOLS
UND
TESTS
.
157
5.2.8
VIRTUALIZATION-MODE
(ACHTUNG:
WICHTIG!)
.
159
5.3
SETUPDESGPU-MANAGERS/VGPU-HOST-DRIVERS(ESXI/VSPHERE7).
160
5.3.1
NVD-AIE
ODER
NVD-VGPU,
NVIDIA
VGPU
CERTIFIED
SERVER
.
160
5.3.2
SETUP
DES
NVIDIA-VIB
(VGPU-MANAGER)
AUF
DEN
ESXIS
.
161
5.3.3
POC:
EINFACHES
PASSTHROUGH
.
162
5.4
VM-TEMPLATES
MIT
GPUS
ERSTELLEN
.
164
5.4.1
ERSTELLUNG
UND
KONFIGURATION
EINES
VM-TEMPLATES
(VGPU-VARIANTE,
OPENSHIFT)
.
165
5.4.2
ERSTELLUNG
UND
KONFIGURATION
EINES
VM-TEMPLATES
(MIG-BACKED
VGPU-VARIANTE,
OPENSHIFT)
.
167
5.4.3
ERSTELLUNG
EINES
SKALIERBAREN
PCI-PASSTHROUGH-VM-TEMPLATES
(IDENTISCHE
GPUS
PER
DYNAMIC
DIRECTPATH
IO
UND
HARDWARE-BEZEICHNER)
.
169
5.4.4
DIE
GPU-POWER-MODI
(P0-P8)
UND
(IDLE-)LEISTUNGSAUFNAHME
.
170
5.4.5
CHECKLISTE
FUER
MOEGLICHE
FEHLER
BEIM
VGPU-BETRIEB
.
170
5.5
MIG-MODE
AUF
DEM
HYPERVISOR
AKTIVIEREN
.
171
5.5.1
SETUP-VORBEREITUNGEN
.
171
5.5.2
GPU
(OHNE
REBOOT
DES
ESXI-HOSTS)
AUF
MIG-MODE
UMSTELLEN
.
173
5.5.3
MANUELLE
PARTITIONIERUNG
ANLEGEN
(NUR
ZUR
VERANSCHAULICHUNG)
.
176
9
6
DER
NVIDIA
AI
ENTERPRISE
(NVAIE)-STACK
-
INFRASTRUKTURRELEVANTE
BETRACHTUNGEN
181
6.1
VORBETRACHTUNGEN
.
181
6.2
MOTIVATION
.
182
6.3
PLATTFORMEN
FUER
NVAIE
.
183
6.4
NVAIE
VS.
VGPU
VS.
FREE
GPU
OPERATOR
.
185
6.4.1
VIBS
.
185
6.4.2
GPU-OPERATOR
.
185
6.4.3
NVAIE-FEATURES
.
186
6.5
NVAIE
IN
DER
PUBLIC
CLOUD
.
186
6.6
NVAIE
IST
PFLICHT
FUER
SKALIERBARE
ML-CLUSTER?
.
187
6.7
NVAIE
ALS
AI-END-TO-END-PLATFORM
.
187
7
VGPU-/NVAIE-PREFLIGHTS:
LIZENZIERUNG
189
7.1
GRUNDSAETZLICHES:
VGPU
VS.
NVAIE-LIZENZEN
UND
DLS
VS.
CLS
.
189
7.1.1
PREISE
UND
SLAS:
VGPU
.
190
7.1.2
PREISE
UND
SLAS:
NVAIE
.
191
7.1.3
NVIDIA-ENTITLEMENT
BEANTRAGEN
.
193
7.2
NVIDIA
LICENSING
SYSTEM
(NLS)
.
194
7.2.1
VORBETRACHTUNGEN
.
194
7.2.2
LICENSE
SERVER:
SELF-HOSTED
LICENSE
SERVER
UND
ALTERNATIVEN
.
195
7.3
LICENSE
SERVER:
DLS
VS.
CLS
.
196
7.4
SELF-HOSTED
LICENSE
SERVER:
DLS
UND
LEGACY
LICENSE
SERVER
.
197
7.4.1
LICENSE
SERVER-LEGACY-VARIANTE
(SELF-HOSTED)
.
197
7.4.2
LICENSE
SERVER
-
DLS-VARIANTE
(DLS
VIRTUAL
APPLIANCE,
ON-PREM)
.
200
7.4.3
TROUBLESHOOTING-TOKEN
DEBUGGING
.
204
7.5
CLOUD-HOSTED
LICENSE
SERVER:
CLS
.
205
7.5.1
LICENSE
SERVER-CLS-VARIANTE
(CLOUDBASIERT)
.
205
10
8
KUBERNETES-BASIERTE
PLATTFORMEN
FUER
SKALIERBARE,
GPU-ACCELERATED
KI/ML-CLUSTER
209
8.1
THE
ROAD
SO
FAR
.
209
8.2
GENERELLE
PLATTFORM-FRAGEN:
(VANILLA-)KUBERNETES-DERIVATE
UND
OPENSHIFT
IM
UEBERBLICK.
211
8.3
VANILLA
KUBERNETES
.
213
8.3.1
TEST
AND
PLAY
.
213
8.3.2
BENOETIGTE
3RD
PARTY
TOOLS
UND
ASYNCHRONE
PRODUKTZYKLEN
.
214
8.3.3
VANILLA
KUBERNETES
UND
DAS
TRAURIGE
THEMA
LTS:
GELD
VERBRENNEN?
ODER
BESSER
DOCH
NICHT?
.
214
8.3.4
RELEASES,
CHANGES
UND
KEIN
ENDE
.
215
8.3.5
VANILLA
KUBERNETES
UND
TTM-MAERCHENSTUNDEN
.
216
8.3.6
AKS,
EKS,
GKE
&
CO
.
217
8.4
VMWARES
TANZU
UND
DAS
ECKIGE,
DAS
DURCHS
RUNDE
SOLL
.
217
8.4.1
HISTORISCHES
.
217
8.4.2
TANZU
.
218
8.5
OPENSHIFT
.
219
8.6
ABSCHLIESSENDE
LTS-BETRACHTUNGEN
.
220
8.7
KUBERNETES-BASICS
-
AUFBAU
DES
SYSTEMS
.
222
8.7.1
KERNKOMPONENTEN
UND
KONZEPTE
.
222
8.7.2
KUBERNETES-SPEZIFISCHE
DIENSTE
AUF
DEN
MASTER-NODES
(CONTROLPLANE)
.
224
8.7.3
KUBERNETES-SPEZIFISCHE
DIENSTE
AUF
ALLEN
NODES
.
224
8.8
KUBERNETES-BASICS
-
RESSOURCEN/WORKLOADS
.
225
8.8.1
KUBERNETES/OPENSHIFT:
API-VERSION
UND
API-RESSOURCEN.
225
8.8.2
NAMESPACES
.
226
8.8.3
PODS
.
227
8.8.4
POD-METAHUELLEN:
DEPLOYMENTS,
STATEFULSETS,
DAEMONSETS
.
228
8.8.5
CONFIGMAPS
.
232
8.8.6
NODE-OBJEKTE
UND
NODE-LABEL
.
232
8.8.7
SERVICES
.
233
8.8.8
INGRESS
UND
ROUTEN
.
234
8.9
SONSTIGE
IM
FOLGENDEN
VERWENDETE,
KUBERNETES-SPEZIFISCHE
TOOLS
.
236
8.9.1
KUBECTL
UND
OC-BASH-COMPLETION
UND
KUBECTL-ALIAS
.
236
8.9.2
KUSTOMIZE
UND
HELM
.
238
11
9
PREF
LIGHTS
FUER
GPU-ACCELERATED
CONTAINER-CLUSTER:
OPERATOREN
241
9.1
GENERELLE
VORBETRACHTUNGEN
ZUM
THEMA
OPERATOREN
.
241
9.1.1
EINFUEHRUNG
.
242
9.1.2
WAS
IST
EIN
OPERATOR?
.
242
9.1.3
HORIZONTAL?
VERTIKAL?
BEIDES?
.
245
9.1.4
CONTROLLER-LOOPS
.
245
9.1.5
OPERATOR-KATEGORIEN
.
246
9.1.6
RED
HATS
OPERATOR
FRAMEWORK
UND
OPERATOR-SDK
.
246
9.2
OPERATOR-TYPEN
UND
MATURITAETS-LEVEL:
HELM
VS.
ANSIBLE
VS.
GO
.
247
9.2.1
OPERATOR-MATURITAETS-LEVEL
UND
-KATEGORIEN
.
247
9.2.2
OPERATOR-BUILD
.
248
9.2.3
OPERATORHUB.IO
UND
OPENSHIFT-OPERATOREN
.
249
9.3
DIE
WICHTIGE
ROLLE
VON
OPERATOREN
IM
AUTO-SKALIERBAREN
KI/ML-STACK
.
250
9.3.1
TEAM-PLAY
.
250
9.3.2
DER
GPU-OPERATOR-VERGANGENHEIT
UND
ZUKUNFT
.
250
9.4
NVIDIAS
GPU-OPERATOR
-
DIE
ARCHITEKTUR
.
251
9.4.1
DAS
GESAMTKONSTRUKT
.
251
9.4.2
GPU-OPERATOR:
UNTERSTUETZTE
HYPERVISOREN
UND
GPUS
.
252
9.4.3
ALL-IN-ONE
.
253
9.4.4
GPU-OPERATOR
UND
DGX
.
253
9.4.5
DIE
EINZELKOMPONENTEN
DES
GPU-OPERATORS
IM
HIGH-LEVEL-UEBERBLICK
.
253
9.4.6
PREFLIGHT:
DER
NFD-OPERATOR
.
256
9.4.7
DIE
EINZELKOMPONENTEN
DES
GPU-OPERATORS
IM
DETAIL
.
257
9.5
AUTOMATISCHE
PROVISIONIERUNG
EINES
NODES
DURCH
DEN
GPU-OPERATOR
.
258
9.5.1
K8S-DEVICE-PLUGIN
.
259
9.5.2
GPU
FEATURE
DISCOVERY
.
259
9.5.3
DRIVER
.
261
9.5.4
CONTAINER-TOOLKIT
.
261
9.5.5
DCGM/DCGM-EXPORTER
.
261
9.5.6
DER
MIG-MANAGER
.
261
9.5.7
MIG-MANAGER
UND
ASSOZIIERTE
CONFIGMAP
.
264
9.5.8
MIG-STRATEGIES:
MIXED
VS.
SINGLE
IN
DER
PRAXIS
.
266
9.5.9
CUSTOM-MIG-CONFIGMAP
.
267
9.6
NVIDIAS
NETWORK-OPERATOR
-
DIE
ARCHITEKTUR
.
268
9.6.1
VORBETRACHTUNGEN
UND
UEBERSICHT
.
268
9.6.2
ARBEITSWEISE
(HIGH-LEVEL)
.
269
12
9.7
KOMPONENTEN
DES
NETWORK-OPERATORS
IM
UEBERBLICK
.
270
9.7.1
MOFED
(NVIDIA_MLNX_OFED)
DRIVER
.
270
9.7.2
KUBERNETES
RDMA
SHARED
DEVICE
PLUGIN
.
271
9.7.3
NVIDIA
PEER
MEMORY
DRIVER
.
271
9.7.4
SONSTIGE
WICHTIGE
KOMPONENTEN
.
271
10
OPENSHIFT
(GPU-ACCELERATED)
-
MULTIPLATFORM
(CLOUD
UND
ON-PREMISES)
273
10.1
THEORETISCHE
VORBETRACHTUNGEN
.
273
10.1.1
PREFLIGHTS:
NVIDIA-ENTITLEMENTS/-LIZENZEN,
LIZENZSERVER
.
274
10.1.2
FUNKTIONSWEISE
-
HIGH-LEVEL-UEBERBLICK
.
274
10.2
KONZEPTIONELLE
VORBETRACHTUNGEN
ZUM
SETUP
(ON-PREM
MIT
VSPHERE)
.
275
10.2.1
UEBERBLICK
.
275
10.2.2
SETUP-PROZEDUREN
GPU-ACCELERATED
OPENSHIFT
IPI
ON
VSPHERE
-
SCHEMATISCH
.
276
10.3
ON-PREMISES:
OPENSHIFT
4.10-SETUP
-
INSTALLER
PROVISIONED
INFRASTRUCTURE
(IPI)
AUF
VSPHERE
.
277
10.3.1
PREFLIGHTS:
INFRASTRUKTUR
UND
OPENSHIFT-CLUSTER
.
277
10.3.2
GENERELLE
TOOL-HINWEISE
ZU
ALLEN
OPENSHIFT-SETUPS
(AWS,
GCP,
VSPHERE
&
CO.)
.
277
10.3.3
DER
OPENSHIFT-INSTALLER:
TERRAFORM
IN
SCHOEN
.
278
10.3.4
VORBETRACHTUNGEN:
CLUSTER
SIZING
.
279
10.3.5
ZUSAMMENFASSUNG
DER
TECHNISCHEN
PREFLIGHTS
FUER
DAS
VSPHERE-SETUP
.
279
10.3.6
ACHTUNG,
WICHTIG:
DNS-SETTINGS
.
280
10.3.7
DNS-REVERSE-ZONEN
.
281
10.3.8
VSPHERE-HA
UND
OPENSHIFT-INSTALLER
(OVA
UPLOAD
FAILS
IN
SINGLE
DATASTORE)
.
281
10.3.9
INSTALL-CONFIG.YAML
FUER
VSPHERE-IPI-LNSTALLATION
(AUSZUEGE)
.
282
10.3.10
ROLLOUT
.
283
10.3.11
DER
POST-ROLLOUT-ZUSTAND
.
286
10.4
PREFLIGHTS
FUER
SKALIERBARE
GPU-NODES
UNTER
OPENSHIFT:
MACHINESETS,
MACHINECONFIGS
UND
MACHINE-/CLUSTER-AUTOSCALER
.
286
10.4.1
VORBETRACHTUNGEN
.
287
10.4.2
CLUSTER-OPERATOREN
UND
MACHINE*-RESSOURCEN
.
287
10.4.3
MACHINECONFIGS
.
289
10.4.4
.
290
10.4.5
KOMPONENTEN
DES
MCO
.
290
13
10.4.6
MACHINECONFIGPOOL
.
291
10.4.7
MACHINES
UND
MACHINESETS,
SKALIERUNG
.
292
10.5
CLUSTER-AUTOSCALER/MACHINE-AUTOSCALER
.
294
10.5.1
HIGH-LEVEL-BETRACHTUNG
.
294
10.5.2
MACHINE-AUTOSCALER
.
295
10.5.3
CLUSTER-AUTOSCALER
.
295
10.5.4
THRESHOLDS
.
296
10.5.5
ZU
BEACHTENDE
PUNKTE
.
297
10.5.6
GPU-VM-TEMPLATE
(VSPHERE)
IN
MACHINESET
EINBINDEN
.
298
10.5.7
GPU-MACHINECONFIGPOOL
UND
CUSTOMISIERTES
MACHINESET
FUER
SKALIERBARE
GPU-NODES
ERZEUGEN
.
299
10.5.8
SKALIERUNG
DES
NEUEN
GPU-MACHINESETS
.
303
10.5.9
EXEMPLARISCHE
ERZEUGUNG
EINES
GPU-MACHINESETS
UNTER
AWS
.
304
10.5.10
FAZIT
.
306
10.6
VGPU-/MIG-SPEZIFISCHES
SETUP
DES
OPENSHIFT-CLUSTERS:
NFD
UND
GPU-OPERATOR
.
306
10.6.1
HISTORISCHES
-
NVIDIA-DRIVER-BUILD
MIT
RED
HAT
ENTITLEMENTS
.
306
10.6.2
KERNEL
FUER
DRIVER-DAEMONSET
ZU
NEU?
ACHTUNG
BEI
OPENSHIFT-RELEASE-UPDATES
.
307
10.6.3
INSTALLATIONSVERFAHREN,
GENERELLE
OPERATOR-SETTINGS
.
307
10.6.4
GPU-MANAGER-MANAGED
MIG-MODE
UND
VGPU
.
308
10.6.5
NFD-OPERATOR-INSTALLATION
UND
-KONFIGURATION
.
308
10.6.6
GPU-OPERATOR-LNSTALLATION
UND
-KONFIGURATION
.
311
10.6.7
LICENSE-CONFIGMAP
.
313
10.6.8
IMAGEPULLSECRET
FUER
DRIVER-IMAGES
AUS
DER
NGC-REGISTRY
.
315
10.6.9
DIE
CLUSTERPOLICY-CR
(GPU-OPERATOR)
.
316
10.7
AUTOMATISCHES
VGPU-NODE-SETUP
PER
OPERATOR
-
OPENSHIFT-MACHINESET
MIT
TESLA
T4
.
320
10.7.1
ROLLOUT
DER
CLUSTERPOLICY-CR
.
320
10.7.2
STATUS
AUF
DEN
ESXI-HOSTS
.
322
10.7.3
ANALYSE
DES
AUSGEROLLTEN
(V)GPU-STACKS.
324
10.8
AUTOMATISCHES
MIG-SLICE-SETUP
PER
OPERATOR
-
A30
ON-PREMISES
.
327
10.8.1
MIG
IM
PCI
PASSTHROUGH
(A30
ON-PREMISES),
PARTITIONIERUNG
DURCH
DEN
MIG-MANAGER
.
328
10.8.2
OPENSHIFT-MACHINESET
UND
DEFAULT-MIG-SETTINGS
.
328
10.8.3
SKALIERUNG
DES
MACHINESETS
.
330
10.8.4
TEILEN?
ODER
LIEBER
DOCH
NICHT?
.
332
14
10.9
CLOUD:
GPU-MACHINESETS
IN
OPENSHIFT
4.10
UNTER
GCP
MIT
ALOO-LNSTANZEN
(MIG-PARTITIONEN
VIA
OPERATOR)
.
333
10.9.1
VORBETRACHTUNGEN
.
333
10.9.2
VERFUEGBARE
VM-INSTANZEN
(GCP)
MIT
GPU
.
334
10.9.3
SETUP-PROZEDUREN-SCHEMATISCH
.
334
10.9.4
PREFLIGHTS
-
GCP-KONTINGENTE
GEGEBENENFALLS
ERHOEHEN
.
335
10.9.5
PREFLIGHTS
-
DOMAIN,
DNS
UND
APIS
.
335
10.9.6
SERVICE-ACCOUNT
ZUR
OPENSHIFT-CLUSTER-ERZEUGUNG
.
337
10.9.7
ANPASSUNGEN
DER
INSTALL-CONFIG.YAML,
ROLLOUT
DES
CLUSTERS
.
338
10.9.8
SETUP
DER
GPU-NODES
.
341
10.9.9
EXTRAKTION,
ANPASSUNG
UND
RE-IMPORT
MACHINESET
UND
MCP
.
342
10.9.10
SKALIERUNG
DES
NEUEN
GPU-MACHINESETS
.
345
10.9.11
CHECK
DER
PROVISIONIERTEN
GPU-NODES
.
346
10.9.12
NFD
UND
GPU-OPERATOR
.
346
10.9.13
MIG-MODE
AKTIVIEREN,
MIG-PARTITION-SIZE
FUER
A100
EINSTELLEN
.
348
10.9.14
DEBUGGING
UND
TROUBLESHOOTING
.
352
10.10
GPU-SHARING/-OVERCOMMITMENT.
353
10.10.1
KONZEPT-RECAP
UND
PRAKTISCHE
UMSETZUNG
.
353
10.10.2
SETUP
(OPENSHIFT)
.
355
10.10.3
SHARED
WORKLOAD
TESTEN
.
356
10.10.4
GPU-SHARING-KONFIGURATION
PER
NODE
ZUR
LAUFZEIT
AENDERN
.
358
10.10.5
GPU
SHARING
MIT
VGPU
.
359
10.10.6
GPU-SHARING
MIT
MIG-SLICES
.
360
10.10.7
GPU-SHARING
IN
DER
GCP-CLOUD
ALS
KURZES
POC
.
366
10.11
SETUP
DES
NETWORK-OPERATORS
(OPENSHIFT
ON
VSPHERE
[IPI])
FUER
GPUDIRECT
RDMA
.
371
10.11.1
PREFLIGHTS
.
371
10.11.2
HIGH-LEVEL-WORKFLOWFUER
DEN
NETWORK-OPERATOR
.
378
10.11.3
NETWORK-OPERATOR
UND
NFD-CR
.
379
10.11.4
TESTS
NACH
ERFOLGREICHEM
ROLLOUT
.
380
10.11.5
GPUDIRECT-RDMA-TEST
MITMACVLAN
.
382
10.11.6
CONNECT-TESTS
.
383
10.11.7
EIN
(NICHT
WIRKLICH
RUNDES)
FAZIT
.
385
10.12
KI/ML-SYSTEM-PERFORMANCE-TEST
(OPENSHIFT
ON
DGX)
.
386
10.13
GPU-DASHBOARD
FUER
OPENSHIFT
.
387
15
11
GKE
-
GOOGLE
KUBERNETES
ENGINE
CLUSTER
(GPU-ACCELERATED)
389
11.1
UEBERBLICK
.
389
11.1.1
GENERELLE
PREFLIGHTS:
GPU-VERFUEGBARKEIT
NACH
REGIONEN/ZONEN,
GEEIGNETE
INSTANZTYPEN
.
389
11.2
SETUP-VARIANTE
1:
GKE-CLUSTER
MIT
SEPARATEM
NODE-POOL
FUER
GPU-NODES
.
390
11.2.1
SETUP
.
390
11.2.2
ROLLOUT
DES
GPU-OPERATORS
.
392
11.3
SETUP-VARIANTE
2:
GPU-CLUSTER
AUF
GKE
DIREKT
AUSROLLEN
.
395
TEIL
III
ML-STACKS
FUER
SKALIERBARE
KI/ML-INFRASTRUKTUREN
12
CI/CD-PIPELINES,
GITOPS
UND
MLOPS
399
12.1
VON
DER
(ML-)INSEL
ZUR
PIPELINE
.
399
12.2
CI/CD
UND
GITOPS
.
400
12.2.1
CI/CD
.
400
12.2.2
GITOPS
.
401
12.3
GITOPS-PIPELINE-MODELLE
.
401
12.3.1
PULL-VS.
PUSH-BASED
.
401
12.3.2
PUSH-BASED
.
402
12.3.3
PULL-BASED
.
403
12.3.4
MULTIPLE
STAGES/APPLICATIONS
.
404
12.4
MLOPS,
LTS
UND
PORTIERBARKEIT
.
404
12.4.1
MLOPS
UND
CRISP-DM
.
406
12.4.2
MLOPS
UND
ML-PIPELINES-TECHNISCHE
FOUNDATION/SCHEMATISCH
.
407
16
13
ML-PIPELINE
UND
AL-END-TO-END-IMPLEMENTIERUNGEN
MIT
KUBEFLOW/VERTEX
AL,
OPEN
DATA
HUB
UND
NVIDIA
AI
ENTERPRISE
411
13.1
ML-PIPELINE-IMPLEMENTIERUNGEN
IN
KUBERNETES-BASIERTEN
CLUSTERN
.
411
13.1.1
DER
(KI/ML-)PIPELINE-ANSATZ
.
411
13.1.2
END-TO-END-AI-PLATTFORMEN
UND
WORKFLOWS
.
412
13.1.3
DAS
GENERELLE
FINDUNGSPROBLEM
.
413
13.1.4
CONTAINERISIERTE
ML-PIPELINES
UND
SEGEN
UND
FLUCH
DER
MODULARITAET
.
414
13.1.5
KUBERNETES/KUBEFLOW
TO
THE
RESCUE?
GENAU
BETRACHTET
EHER
(NOCH)
NICHT
.
415
13.1.6
EINE
LOESUNG
.
416
13.2
KUBEFLOW
.
417
13.2.1
KUBEFLOW-KOMPONENTEN
IM
UEBERBLICK
.
417
13.2.2
ENTWICKLUNG
UND
MODULE
(AUSZUEGE)
.
418
13.2.3
DIE
KERNKOMPONENTEN
.
419
13.2.4
ALLTOGETHER?
.
420
13.2.5
ISTIO
.
421
13.2.6
KUBEFLOW
WAR
GESTERN
-
ES
LEBE
VERTEX
AI.
NA,
ZUMINDEST
GANZ
SICHER
BIS
.
SAGEN
WIR
MAL:
MORGEN
MITTAG
.
421
13.3
HANDS-ON:
KUBEFLOW
UNTER
GKE
IN
DER
PRAXIS
.
422
13.3.1
PREFLIGHTS
.
422
13.3.2
SETUP
.
423
13.3.3
GRAFISCHE
OBERFLAECHEN
.
428
13.4
OPEN
DATA
HUB
.
430
13.4.1
DIE
UNTERSCHIEDE
ZU
KUBEFLOW
-
EIN
HIGH-LEVEL-UEBERBLICK
.
430
13.4.2
OPEN
DATA
HUB
(ODH)
-
ARCHITEKTUR
UND
ARBEITSWEISE
.
430
13.4.3
DIEODH-MODULE
.
432
13.5
HANDS-ON:
OPEN-DATA-HUB-SETUP
UNTER
OPENSHIFT
.
433
13.5.1
PREFLIGHTS
.
433
13.5.2
SETUP
.
434
13.5.3
POST
ROLLOUT
.
439
17
13.6
NVIDIA
AI
ENTERPRISE
(AL-END-TO-END-RELEVANTE
BETRACHTUNGEN)
.
442
13.6.1
NVIDIAS
AI-END-TO-END-STACK
-
RELOADED
.
443
13.6.2
DIE
MODULE
IM
DETAIL
.
444
13.6.3
NVIDIAS
AI-END-TO-END-PATTERNS
.
445
13.7
HANDS-ON:
NVIDIA
AI
ENTERPRISE
(AI
END-TO-END)
UNTER
OPENSHIFT
.
447
13.7.1
NVIDIA
MORPHEUS
AI
ENGINE
.
447
13.7.2
TRITON
INFERENCE
SERVER
.
448
13.7.3
MORPHEUS
MLFLOW
TRITON
PLUGIN
.
449
13.7.4
VORBETRACHTUNGEN:
AI
END-TO-END
MIT
MORPHEUS
AI
ENGINE
.
449
13.7.5
PREFLIGHTS
.
450
13.7.6
HANDS-ON
.
450
13.7.7
CYBERSECURITY
MIT
MORPHEUS
AI
(RED
HAT
DEVELOPER)
.
458
13.7.8
NVIDIA
LAUNCHPAD
.
458
14
THE
ROAD
AHEAD
459
INDEX
.
463
18 |
any_adam_object | 1 |
any_adam_object_boolean | 1 |
author | Liebel, Oliver |
author_GND | (DE-588)1042738157 |
author_facet | Liebel, Oliver |
author_role | aut |
author_sort | Liebel, Oliver |
author_variant | o l ol |
building | Verbundindex |
bvnumber | BV048674744 |
classification_rvk | ST 300 |
ctrlnum | (OCoLC)1357082519 (DE-599)DNB1270836102 |
discipline | Informatik |
discipline_str_mv | Informatik |
edition | 1. Auflage |
format | Book |
fullrecord | <?xml version="1.0" encoding="UTF-8"?><collection xmlns="http://www.loc.gov/MARC21/slim"><record><leader>00000nam a22000008c 4500</leader><controlfield tag="001">BV048674744</controlfield><controlfield tag="003">DE-604</controlfield><controlfield tag="005">20230227</controlfield><controlfield tag="007">t</controlfield><controlfield tag="008">230124s2023 gw a||| |||| 00||| ger d</controlfield><datafield tag="015" ind1=" " ind2=" "><subfield code="a">22,N43</subfield><subfield code="2">dnb</subfield></datafield><datafield tag="016" ind1="7" ind2=" "><subfield code="a">1270836102</subfield><subfield code="2">DE-101</subfield></datafield><datafield tag="020" ind1=" " ind2=" "><subfield code="a">9783836273930</subfield><subfield code="c">Festeinband : EUR 79.90 (DE), EUR 82.20 (AT), CHF 102.90 (freier Preis)</subfield><subfield code="9">978-3-8362-7393-0</subfield></datafield><datafield tag="020" ind1=" " ind2=" "><subfield code="a">3836273934</subfield><subfield code="9">3-8362-7393-4</subfield></datafield><datafield tag="024" ind1="3" ind2=" "><subfield code="a">9783836273930</subfield></datafield><datafield tag="028" ind1="5" ind2="2"><subfield code="a">Bestellnummer: 459/07393</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(OCoLC)1357082519</subfield></datafield><datafield tag="035" ind1=" " ind2=" "><subfield code="a">(DE-599)DNB1270836102</subfield></datafield><datafield tag="040" ind1=" " ind2=" "><subfield code="a">DE-604</subfield><subfield code="b">ger</subfield><subfield code="e">rda</subfield></datafield><datafield tag="041" ind1="0" ind2=" "><subfield code="a">ger</subfield></datafield><datafield tag="044" ind1=" " ind2=" "><subfield code="a">gw</subfield><subfield code="c">XA-DE-NW</subfield></datafield><datafield tag="049" ind1=" " ind2=" "><subfield code="a">DE-92</subfield><subfield code="a">DE-20</subfield><subfield code="a">DE-523</subfield><subfield code="a">DE-355</subfield><subfield code="a">DE-473</subfield><subfield code="a">DE-M347</subfield><subfield code="a">DE-1102</subfield><subfield code="a">DE-898</subfield><subfield code="a">DE-573</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="a">ST 300</subfield><subfield code="0">(DE-625)143650:</subfield><subfield code="2">rvk</subfield></datafield><datafield tag="084" ind1=" " ind2=" "><subfield code="8">1\p</subfield><subfield code="a">004</subfield><subfield code="2">23sdnb</subfield></datafield><datafield tag="100" ind1="1" ind2=" "><subfield code="a">Liebel, Oliver</subfield><subfield code="e">Verfasser</subfield><subfield code="0">(DE-588)1042738157</subfield><subfield code="4">aut</subfield></datafield><datafield tag="245" ind1="1" ind2="0"><subfield code="a">Skalierbare KI/ML-Infrastrukturen</subfield><subfield code="b">Evaluieren, Automatisieren, Praxis</subfield><subfield code="c">Oliver Liebel</subfield></datafield><datafield tag="250" ind1=" " ind2=" "><subfield code="a">1. Auflage</subfield></datafield><datafield tag="264" ind1=" " ind2="1"><subfield code="a">Bonn</subfield><subfield code="b">Rheinwerk</subfield><subfield code="c">2023</subfield></datafield><datafield tag="300" ind1=" " ind2=" "><subfield code="a">468 Seiten</subfield><subfield code="b">Illustrationen, Diagramme</subfield><subfield code="c">24 cm x 19 cm</subfield></datafield><datafield tag="336" ind1=" " ind2=" "><subfield code="b">txt</subfield><subfield code="2">rdacontent</subfield></datafield><datafield tag="337" ind1=" " ind2=" "><subfield code="b">n</subfield><subfield code="2">rdamedia</subfield></datafield><datafield tag="338" ind1=" " ind2=" "><subfield code="b">nc</subfield><subfield code="2">rdacarrier</subfield></datafield><datafield tag="490" ind1="0" ind2=" "><subfield code="a">Rheinwerk Computing</subfield></datafield><datafield tag="500" ind1=" " ind2=" "><subfield code="a">Zusatz auf dem Cover: Kubernetes- und OpenShift-Cluster mit NVIDIAs Datacenter-GPUs, Skalierbare und resiliente Infrastrukturen in der Cloud und On-Prem, Vollautomation und Kosteneffizienz mit IaC und Operatoren</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Kubernetes</subfield><subfield code="0">(DE-588)1153019000</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Künstliche Intelligenz</subfield><subfield code="0">(DE-588)4033447-8</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="650" ind1="0" ind2="7"><subfield code="a">Maschinelles Lernen</subfield><subfield code="0">(DE-588)4193754-5</subfield><subfield code="2">gnd</subfield><subfield code="9">rswk-swf</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">Datacenter</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">Passthrough MIG vGPU</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">VMware vsphere</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">MLOps GitOps AI End-to-end</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">On-Premises Cloud Hybrid On Prem</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">Kubernetes- OpenShift-Cluster</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">NVIDIA -GPUs</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">KI/ML</subfield></datafield><datafield tag="653" ind1=" " ind2=" "><subfield code="a">Buch</subfield></datafield><datafield tag="689" ind1="0" ind2="0"><subfield code="a">Künstliche Intelligenz</subfield><subfield code="0">(DE-588)4033447-8</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2="1"><subfield code="a">Maschinelles Lernen</subfield><subfield code="0">(DE-588)4193754-5</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2="2"><subfield code="a">Kubernetes</subfield><subfield code="0">(DE-588)1153019000</subfield><subfield code="D">s</subfield></datafield><datafield tag="689" ind1="0" ind2=" "><subfield code="5">DE-604</subfield></datafield><datafield tag="710" ind1="2" ind2=" "><subfield code="a">Rheinwerk Verlag</subfield><subfield code="0">(DE-588)1081738405</subfield><subfield code="4">pbl</subfield></datafield><datafield tag="856" ind1="4" ind2="2"><subfield code="m">X:MVB</subfield><subfield code="q">text/html</subfield><subfield code="u">http://deposit.dnb.de/cgi-bin/dokserv?id=f40698a7aa2f4ae1bf337fea6458daab&prov=M&dok_var=1&dok_ext=htm</subfield><subfield code="3">Inhaltstext</subfield></datafield><datafield tag="856" ind1="4" ind2="2"><subfield code="m">B:DE-101</subfield><subfield code="q">application/pdf</subfield><subfield code="u">https://d-nb.info/1270836102/04</subfield><subfield code="3">Inhaltsverzeichnis</subfield></datafield><datafield tag="856" ind1="4" ind2="2"><subfield code="m">DNB Datenaustausch</subfield><subfield code="q">application/pdf</subfield><subfield code="u">http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=034049235&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA</subfield><subfield code="3">Inhaltsverzeichnis</subfield></datafield><datafield tag="883" ind1="1" ind2=" "><subfield code="8">1\p</subfield><subfield code="a">vlb</subfield><subfield code="d">20221021</subfield><subfield code="q">DE-101</subfield><subfield code="u">https://d-nb.info/provenance/plan#vlb</subfield></datafield><datafield tag="943" ind1="1" ind2=" "><subfield code="a">oai:aleph.bib-bvb.de:BVB01-034049235</subfield></datafield></record></collection> |
id | DE-604.BV048674744 |
illustrated | Illustrated |
index_date | 2024-07-03T21:23:41Z |
indexdate | 2024-08-21T00:51:46Z |
institution | BVB |
institution_GND | (DE-588)1081738405 |
isbn | 9783836273930 3836273934 |
language | German |
oai_aleph_id | oai:aleph.bib-bvb.de:BVB01-034049235 |
oclc_num | 1357082519 |
open_access_boolean | |
owner | DE-92 DE-20 DE-523 DE-355 DE-BY-UBR DE-473 DE-BY-UBG DE-M347 DE-1102 DE-898 DE-BY-UBR DE-573 |
owner_facet | DE-92 DE-20 DE-523 DE-355 DE-BY-UBR DE-473 DE-BY-UBG DE-M347 DE-1102 DE-898 DE-BY-UBR DE-573 |
physical | 468 Seiten Illustrationen, Diagramme 24 cm x 19 cm |
publishDate | 2023 |
publishDateSearch | 2023 |
publishDateSort | 2023 |
publisher | Rheinwerk |
record_format | marc |
series2 | Rheinwerk Computing |
spelling | Liebel, Oliver Verfasser (DE-588)1042738157 aut Skalierbare KI/ML-Infrastrukturen Evaluieren, Automatisieren, Praxis Oliver Liebel 1. Auflage Bonn Rheinwerk 2023 468 Seiten Illustrationen, Diagramme 24 cm x 19 cm txt rdacontent n rdamedia nc rdacarrier Rheinwerk Computing Zusatz auf dem Cover: Kubernetes- und OpenShift-Cluster mit NVIDIAs Datacenter-GPUs, Skalierbare und resiliente Infrastrukturen in der Cloud und On-Prem, Vollautomation und Kosteneffizienz mit IaC und Operatoren Kubernetes (DE-588)1153019000 gnd rswk-swf Künstliche Intelligenz (DE-588)4033447-8 gnd rswk-swf Maschinelles Lernen (DE-588)4193754-5 gnd rswk-swf Datacenter Passthrough MIG vGPU VMware vsphere MLOps GitOps AI End-to-end On-Premises Cloud Hybrid On Prem Kubernetes- OpenShift-Cluster NVIDIA -GPUs KI/ML Buch Künstliche Intelligenz (DE-588)4033447-8 s Maschinelles Lernen (DE-588)4193754-5 s Kubernetes (DE-588)1153019000 s DE-604 Rheinwerk Verlag (DE-588)1081738405 pbl X:MVB text/html http://deposit.dnb.de/cgi-bin/dokserv?id=f40698a7aa2f4ae1bf337fea6458daab&prov=M&dok_var=1&dok_ext=htm Inhaltstext B:DE-101 application/pdf https://d-nb.info/1270836102/04 Inhaltsverzeichnis DNB Datenaustausch application/pdf http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=034049235&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA Inhaltsverzeichnis 1\p vlb 20221021 DE-101 https://d-nb.info/provenance/plan#vlb |
spellingShingle | Liebel, Oliver Skalierbare KI/ML-Infrastrukturen Evaluieren, Automatisieren, Praxis Kubernetes (DE-588)1153019000 gnd Künstliche Intelligenz (DE-588)4033447-8 gnd Maschinelles Lernen (DE-588)4193754-5 gnd |
subject_GND | (DE-588)1153019000 (DE-588)4033447-8 (DE-588)4193754-5 |
title | Skalierbare KI/ML-Infrastrukturen Evaluieren, Automatisieren, Praxis |
title_auth | Skalierbare KI/ML-Infrastrukturen Evaluieren, Automatisieren, Praxis |
title_exact_search | Skalierbare KI/ML-Infrastrukturen Evaluieren, Automatisieren, Praxis |
title_exact_search_txtP | Skalierbare KI/ML-Infrastrukturen Evaluieren, Automatisieren, Praxis |
title_full | Skalierbare KI/ML-Infrastrukturen Evaluieren, Automatisieren, Praxis Oliver Liebel |
title_fullStr | Skalierbare KI/ML-Infrastrukturen Evaluieren, Automatisieren, Praxis Oliver Liebel |
title_full_unstemmed | Skalierbare KI/ML-Infrastrukturen Evaluieren, Automatisieren, Praxis Oliver Liebel |
title_short | Skalierbare KI/ML-Infrastrukturen |
title_sort | skalierbare ki ml infrastrukturen evaluieren automatisieren praxis |
title_sub | Evaluieren, Automatisieren, Praxis |
topic | Kubernetes (DE-588)1153019000 gnd Künstliche Intelligenz (DE-588)4033447-8 gnd Maschinelles Lernen (DE-588)4193754-5 gnd |
topic_facet | Kubernetes Künstliche Intelligenz Maschinelles Lernen |
url | http://deposit.dnb.de/cgi-bin/dokserv?id=f40698a7aa2f4ae1bf337fea6458daab&prov=M&dok_var=1&dok_ext=htm https://d-nb.info/1270836102/04 http://bvbr.bib-bvb.de:8991/F?func=service&doc_library=BVB01&local_base=BVB01&doc_number=034049235&sequence=000001&line_number=0001&func_code=DB_RECORDS&service_type=MEDIA |
work_keys_str_mv | AT liebeloliver skalierbarekimlinfrastrukturenevaluierenautomatisierenpraxis AT rheinwerkverlag skalierbarekimlinfrastrukturenevaluierenautomatisierenpraxis |