GPT-4o | 1287 | ? |
Llama 3 70B-Instruct | 1207 | 70 |
Qwen-2-72B | 1187 | 72 |
Qwen1.5-110B-Chat | 1162 | 110 |
GPT-4-0613 | 1161 | 440 |
YI-1.5-34B-Chat | 1160 | 34 |
Llama-3-8B-Instruct | 1153 | 8 |
Mixtral-8x22b-instruct | 1146 | 44 |
Phi-3-Medium-4K-Instruct | 1122 | 14 |
Starling-LM-7B-Beta | 1119 | 7 |
Mixtral-8*7B-Instruct | 1114 | 16 |
GPT-3.5-Turbo-0314 | 1106 | 178 |
Die offenen Top-Modelle laut Chatbot Arena
Model | Average | Size |
---|---|---|
Rhea-72B-v0.5 | 79,15 | 72 |
Mixtral-8x22B | 79,15 | 44 |
Llama3-70B-Instruct-DPO-v0.2 | 78,69 | 72 |
luxia-21.4b-alignment-v1.2 | 78,14 | 21,4 |
MixTAO-7Bx2 | 77,5 | 12,8 |
UNA-SimpleSmaug-34b-v1beta | 77,41 | 34b |
Mistral-7B-Finetunes | 76,67 | 7B |
Die offenen Top-Modelle laut Huggingface-Benchmarks
Model | Average | Size |
---|---|---|
Rhea-72B-v0.5 | 79,15 | 72 |
Mixtral-8x22B | 79,15 | 44 |
Llama3-70B-Instruct-DPO-v0.2 | 78,69 | 72 |
luxia-21.4b-alignment-v1.2 | 78,14 | 21,4 |
MixTAO-7Bx2 | 77,5 | 12,8 |
UNA-SimpleSmaug-34b-v1beta | 77,41 | 34b |
Mistral-7B-Finetunes | 76,67 | 7B |
Die offenen Top-Modelle laut Huggingface-Benchmarks
Faktor | Beschreibung | Größe |
---|---|---|
Parameterzahl | Das eigentliche Model | 7B |
torch.dtype | Prezision der Parameter - fp32, bf16, int4, .. | 29,8GB |
KVCache | Key-Value-Cache für die bisherigen Token für die Berechnung der Attention | 2GB |
Activation Memory | "Zwischenergebnisse" jedes Layers im Forward | 3,56GB |
Inference | 35,4GB | |
Optimizer Memory | Die Lernzustände im Training | 59,6GB |
Gradients Memory | Gradienten für die Backward propagation | 29,8GB |
Training | 124,8GB |
Faktor | Beschreibung | Größe |
---|---|---|
Parameterzahl | Das eigentliche Model | 7B |
torch.dtype | Prezision der Parameter - fp32, bf16, int4, .. | 3,73GB |
KVCache | Key-Value-Cache für die bisherigen Token für die Berechnung der Attention | 0,3GB |
Activation Memory | "Zwischenergebnisse" jedes Layers im Forward | 3,56GB |
Inference | 7,54GB |
Warum muss man eine GPU haben, wenn man C++ kann?
curl -fsSL https://ollama.com/install.sh | sh ollama run llama3 curl -X POST http://localhost:11434/api/generate -d '{ "model": "llama3", "prompt":"Why is the sky blue?" }'
https://arxiv.org/pdf/2311.03687
Device | Speicher | Cuda Cores | Kosten/Devices |
---|---|---|---|
RTX6000 | 48GB | 18176 | 7.245,- |
H100 PCIe | 80GB | 14592 | 29.354,- |
RTX4090 | 24GB | 16384 | 1.769,- |
Ampere A16 | 64G | 5120 | 3.100,- |
Model | Batchsize | Mem bf16 | A16 | H100 |
---|---|---|---|---|
LLaMa3-70B-Instruct | 1 | 239 | 12.400,- | 88.062,- |
LLaMa3-70B-Instruct | 5 | 673 | 34.100,- | 264.186,- |
LLaMa3-70B-Instruct | 50 | 5430 | 263.500,- | 1.996.072,- |
LLaMa3-8B-Instruct | 50 | 243 | 12.400,- | 117,416,- |
Aber:
3xH100 | Preis | Monatlich (3 Jahre) |
---|---|---|
Gekauft | 100.000,- | 2.800,- |
Gemietet | 0 | 4.300,- |
Internal
Sources
Human
Feedback
DataSet
Generation
Supervised
Finetuning
DPO-
Training
https://argilla.io/blog/argilla-for-llms/
Human
Feedback
DPO
https://github.com/occiglot/euro-lm-evaluation-harness
Programmatisch, Version des EleutherAI-Frameworks
Internationale Standard-Evals auf Deutsch
https://github.com/mayflower/FastEval
Einfache Implementierung von mt-bench mit LLM-as-a-judge
https://github.com/ScandEval/ScandEval
Programmatisch, Skandinavische Test-Suite mit Support für Deutsch
https://github.com/EQ-bench/EQ-Bench
Benchmark mit EQ und Kreativität im Fokus, LLM-as-a-judge.
Model
im Betrieb
Feedback
Collection
Dataset
Creation
Model
Training
Unternehmens-
Daten/Skills
vLLM
TGI
On-the-Edge
Argilla
LangSmith
LangFuse
Haystack
LangChain
Distilabel
InstructLab
Axolotl
LLaMa_Factory
Ich freue mich über Gespräche oder Fragen per Linked-In (QR links) :-)
Slides finden sich im QR-Code rechts.