LLM vs Ops
How to provide AI to your colleagues
Large Language Models
"What ChatGPT does"
- Generate Texts
- Summarization
- Classification
- Question Answering
Actual plan
- Follow Instructions
- Reasoning
- Decision making
- evaluate Results
Emergent...
How to use LLMs
How do i write an LLM Solution?
THE LLM Stack
-
Mostly Web, API,WebSockets
-
Streaming
-
Python/NodeJS
-
Tasks
-
Prompt Generation
-
Authentification
-
Input Filtering
-
PII Scrubbing/Replacing
-
-
Existing Operations
Website/Chatbot
-
Just Inference, no training
-
Selection of the right model(s)
-
Text Generation
-
Token Streaming
-
Watermarking
-
"pip install" APIs
Large Language Model
Factor | Relevance |
---|---|
Speed | Responsivity token per second |
Costs | Costs dollar /1000 Token |
Instruction Following | How well does it follow instructions? |
Reasoning | How reliable does it understand logical dependencies |
Size | What does the Model know /size |
Context Size | How large is the working input? |
Attributes of LLMs
GPT-3.5-Turbo
Context-Size 4k-16k
500.000 token/$
GTP-4
Context-Size 4k-32k
17.000 token/$
Strategie
Default zu GPT-3.5-turbo
Bei komplexen Tasks GPT-4
OpenAI LLMS
Available as OpenAI-Service @ Azure
Claude Instant
Context-Size 100k!
180.000 token/$
Claude v1
Context-Size 100k!
28.000 token/$
Strategie
Default zu Instant
Bei komplexen Tasks V1
Antrophic LLMS
Available as BEDROCK-Service @ AWS
Google PALM2
Context-Size 8k
Pricing ?
Cohere CORAL
Context-Size 2k
250.000 token/$
AI21 J1
Focus on training
Multiple Models available
Focus on training
Multiple Models available
Additional LLMs
Since there is a lot of VC involved, one new multimillion startup per month
Context-Size 8k
66.666 token/$
LLAMA-Family
Falcon
Mosaic MPT
Completely free
Small
Completely free
A bit slow
Emirates financed open source Model
Open Source LLMS
"Leaked" at Meta
Very fast and innovative community
Improved instructions, quality, context length
Redpajama/OpenLLama-Efforts
Finetuning++
DEMO
Oder warum viele AI-Experten über "Oobabooga" reden...
Training
... Deshalb ist meist Finetuning gemeint, wenn von Training geredet wird ...
Fine-Tuning
Dank der OpenSource-Community inzwischen auf Consumer-Hardware möglich.
Fine-Tuning
-
Prompting statt Fine-Tuning
-
Hochdimensional semantisch abgelegt
-
Suche über Next-Neighbor
-
Auswahl relevanter Information geschieht im Prompt
VEkTORDatenbank
Vector-DBs
Vector-DBs
OpenAI-Embeddings zB 1526 Dimensionen
Vector-DBs
Embeddings wandeln von Text zu Vektoren. Sie können lokal oder remote passieren.
Vector-DBs
OpenSource, SAAS, remote, lokal, Cloud, Kubernetes, hybrid, mit Fulltext uvm - es gibt heute Auswahl.
Vector-DBs
Die ganzen "Talk to with your documents", und praktisch alle QA-Lösungen beruhen auf Vektordatenbanken.
Training, Finetuning, VectorDB
Tra
Bei bis zu 6-stelliger Anzahl von Informationen, die integriert oder nachgeschlagen werden sollen.
Finetuning
Bei umfangreichen, spezialisierten Daten - firmenintern oder extern.
Training
Selbst Foundation-Anbieter sein und sehr umfangreiches Wissen mitbringen - wie Bloomberg AI auf Basis von Bloom
Prompting
Technische Prompts, nicht Content und Marketing-Magie :-)
〞
Text-Generation möchte nur statistisch sinnvoll Text fortsetzen.
Halluzinationen
Statistisch korrekt, sachlich falsch.
Was kann man da machen?
Chain of Thought Prompting
Transformer stellen über Attention Worte in Bezug zueinander. Das kann man ausnutzen, indem man explizit wird und damit den Möglichkeitsraum reduziert.
"Think Step by Step"
Few Shot Prompting
A "whatpu" is a small, furry animal native to Tanzania. An example of a sentence that uses the word whatpu is:
We were traveling in Africa and we saw these very cute whatpus.
To do a "farduddle" means to jump up and down really fast. An example of a sentence that uses the word farduddle is:
Prompt Engineering
Teenage Sex Level: Alle reden darüber, die wenigsten machen es, und dann nur schlecht.
Trial and Error
Der Prompt hat einmal funktioniert, also wird er deployed. Bei Fehlern wird korrigiert.
Tracking
Prompts und Antworten werden gespeichert und kontrolliert.
RLHF
Der Nutzer gibt Feedback über das Ergebnis, falsch oder schlecht markierte Ergebnisse werden kontrolliert und als Regression genutzt.
Prompt Injection
Indirect Prompt Injection
Prompt Leaking
-
IDS - wiederkennen bekannter Angriffe über
-
Heuristik
-
LLM-Validierung
-
Vektordatenbank
-
-
Canarys zur Leaking Detection.
Rebuff.io
-
Security über durch LLM ausgeführte DSL
-
Einbettung in LangChain
-
Beschränkungen für
-
Themen
-
Safety
-
Security
-
NVIDIA NeMo guardrails
Observability
"Mit der Einführung von OpenAI Functions
hat sich die Tokenzahl verfünffacht."
AIM: OSS-Tracing
https://aimstack.io/
Weights and Biases
SAAS: Alles von Ops bis Monitoring und Prompthandling
https://wandb.ai/site/solutions/llmops
Graphsignal.com
SAAS: Tracing, Monitoring und Cost Monitoring https://graphsignal.com/
Open telemetry
Es gibt noch keine offizielle Integration, aber es lässt sich gut integrieren - siehe https://medium.com/@bocytko/opentelemetry-meets-openai-95f873aa2e41
TEsting / QA
Wie werden LLM-Apps und Prompts gut getestet?
Fazit: Einstieg in LLMS
Copy of LLMOps
By Johann-Peter Hartmann
Copy of LLMOps
Die ganze Welt redet über AI, und meint damit im Moment vor allem LLMs, die Large Language Models. Aber was bedeuten sie für Operations und Cloud? Welches Model nehme ich, was muss ich dabei beachten? Wie betreibe ich solche Modelle selbst, und wie mache ich FinOps, wenn ich nach Token bezahle? Wie sieht Observability bei LLMs aus, und was muss ich beachten, wenn ich meine eigenen Modelle trainieren will? Wir geben einmal die Breitseite über alles, was den Betrieb von LLMs angeht, von Privacy über FineTuning zu Kosten.
- 181