LLMs selbst betreiben

Model	Average	Size
Rhea-72B-v0.5	79,15	72
Mixtral-8x22B	79,15	44
Llama3-70B-Instruct-DPO-v0.2	78,69	72
luxia-21.4b-alignment-v1.2	78,14	21,4
MixTAO-7Bx2	77,5	12,8
UNA-SimpleSmaug-34b-v1beta	77,41	34b
Mistral-7B-Finetunes	76,67	7B

Model	Average	Size
Rhea-72B-v0.5	79,15	72
Mixtral-8x22B	79,15	44
Llama3-70B-Instruct-DPO-v0.2	78,69	72
luxia-21.4b-alignment-v1.2	78,14	21,4
MixTAO-7Bx2	77,5	12,8
UNA-SimpleSmaug-34b-v1beta	77,41	34b
Mistral-7B-Finetunes	76,67	7B

Faktor	Beschreibung	Größe
Parameterzahl	Das eigentliche Model	7B
torch.dtype	Prezision der Parameter - fp32, bf16, int4, ..	29,8GB
KVCache	Key-Value-Cache für die bisherigen Token für die Berechnung der Attention	2GB
Activation Memory	"Zwischenergebnisse" jedes Layers im Forward	3,56GB
Inference		35,4GB
Optimizer Memory	Die Lernzustände im Training	59,6GB
Gradients Memory	Gradienten für die Backward propagation	29,8GB
Training		124,8GB

Faktor	Beschreibung	Größe
Parameterzahl	Das eigentliche Model	7B
torch.dtype	Prezision der Parameter - fp32, bf16, int4, ..	3,73GB
KVCache	Key-Value-Cache für die bisherigen Token für die Berechnung der Attention	0,3GB
Activation Memory	"Zwischenergebnisse" jedes Layers im Forward	3,56GB
Inference		7,54GB

Device	Speicher	Cuda Cores	Kosten/Devices
RTX6000	48GB	18176	7.245,-
H100 PCIe	80GB	14592	29.354,-
RTX4090	24GB	16384	1.769,-
Ampere A16	64G	5120	3.100,-

Model	Batchsize	Mem bf16	A16	H100
LLaMa3-70B-Instruct	1	239	12.400,-	88.062,-
LLaMa3-70B-Instruct	5	673	34.100,-	264.186,-
LLaMa3-70B-Instruct	50	5430	263.500,-	1.996.072,-
LLaMa3-8B-Instruct	50	243	12.400,-	117,416,-

3xH100	Preis	Monatlich (3 Jahre)
Gekauft	100.000,-	2.800,-
Gemietet	0	4.300,-

LLMs im Selbstbetrieb

By Johann-Peter Hartmann

LLMs im Selbstbetrieb

Wenn man über AI nicht nur redet, sondern es macht, dann merkt man schnell, dass es eine ganz normale Technologie ist, mit den ganz normalen Aufgaben, die mit dem Betrieb einhergehen. Auf welche technische Plattform setzt man? On Premises, in der eigenen, in der fremden Cloud oder as a Service? Wie skaliert man LLms elastisch, wie baut man Pipelines zu Training und Finetuning auf? Wir geben einen Überblick über die sich rasant entwickelnde Welt der Werkzeuge für offene LLMs, und mit welchen Hürden man heute noch rechnen muss.

10 months ago
332

Johann-Peter Hartmann PRO

mayflower.de
johannhartmann

GPT-4o	1287	?
Llama 3 70B-Instruct	1207	70
Qwen-2-72B	1187	72
Qwen1.5-110B-Chat	1162	110
GPT-4-0613	1161	440
YI-1.5-34B-Chat	1160	34
Llama-3-8B-Instruct	1153	8
Mixtral-8x22b-instruct	1146	44
Phi-3-Medium-4K-Instruct	1122	14
Starling-LM-7B-Beta	1119	7
Mixtral-8*7B-Instruct	1114	16
GPT-3.5-Turbo-0314	1106	178

LLMs selbst betreiben

LLMs im Selbstbetrieb

More from Johann-Peter Hartmann