LLM vs Ops

How to provide AI to your colleagues

Large Language Models

"What ChatGPT does"

Generate Texts
Summarization
Classification
Question Answering

Actual plan

Follow Instructions
Reasoning
Decision making
evaluate Results

Emergent...

How to use LLMs

How do i write an LLM Solution?

THE LLM Stack

Mostly Web, API,WebSockets
Streaming
Python/NodeJS
Tasks
- Prompt Generation
- Authentification
- Input Filtering
- PII Scrubbing/Replacing
Existing Operations

Website/Chatbot

Just Inference, no training
Selection of the right model(s)
Text Generation
Token Streaming
Watermarking
"pip install" APIs

Large Language Model

Factor	Relevance
Speed	Responsivity token per second
Costs	Costs dollar /1000 Token
Instruction Following	How well does it follow instructions?
Reasoning	How reliable does it understand logical dependencies
Size	What does the Model know /size
Context Size	How large is the working input?

Attributes of LLMs

GPT-3.5-Turbo

Context-Size 4k-16k

500.000 token/$

GTP-4

Context-Size 4k-32k

17.000 token/$

Strategie

Default zu GPT-3.5-turbo

Bei komplexen Tasks GPT-4

OpenAI LLMS

Available as OpenAI-Service @ Azure

Claude Instant

Context-Size 100k!

180.000 token/$

Claude v1

Context-Size 100k!

28.000 token/$

Strategie

Default zu Instant

Bei komplexen Tasks V1

Antrophic LLMS

Available as BEDROCK-Service @ AWS

Google PALM2

Context-Size 8k

Pricing ?

Cohere CORAL

Context-Size 2k

250.000 token/$

AI21 J1

Focus on training

Multiple Models available

Focus on training

Multiple Models available

Additional LLMs

Since there is a lot of VC involved, one new multimillion startup per month

Context-Size 8k

66.666 token/$

LLAMA-Family

Falcon

Mosaic MPT

Completely free

Small

Completely free

A bit slow

Emirates financed open source Model

Open Source LLMS

"Leaked" at Meta

Very fast and innovative community

Improved instructions, quality, context length

Redpajama/OpenLLama-Efforts

Finetuning++

DEMO

Oder warum viele AI-Experten über "Oobabooga" reden...

Training

... Deshalb ist meist Finetuning gemeint, wenn von Training geredet wird ...

Fine-Tuning

Dank der OpenSource-Community inzwischen auf Consumer-Hardware möglich.

Fine-Tuning

OpenAI/Azure

AI21 Jurassic

Google Palm2

AWS mit Custom Hardware

Prompting statt Fine-Tuning
Hochdimensional semantisch abgelegt
Suche über Next-Neighbor
Auswahl relevanter Information geschieht im Prompt

VEkTORDatenbank

Vector-DBs

OpenAI-Embeddings zB 1526 Dimensionen

Vector-DBs

Embeddings wandeln von Text zu Vektoren. Sie können lokal oder remote passieren.

Vector-DBs

OpenSource, SAAS, remote, lokal, Cloud, Kubernetes, hybrid, mit Fulltext uvm - es gibt heute Auswahl.

Vector-DBs

Die ganzen "Talk to with your documents", und praktisch alle QA-Lösungen beruhen auf Vektordatenbanken.

Training, Finetuning, VectorDB

Tra

Bei bis zu 6-stelliger Anzahl von Informationen, die integriert oder nachgeschlagen werden sollen.

Finetuning

Bei umfangreichen, spezialisierten Daten - firmenintern oder extern.

Training

Selbst Foundation-Anbieter sein und sehr umfangreiches Wissen mitbringen - wie Bloomberg AI auf Basis von Bloom

Prompting

Technische Prompts, nicht Content und Marketing-Magie :-)

〞

Text-Generation möchte nur statistisch sinnvoll Text fortsetzen.

Halluzinationen

Statistisch korrekt, sachlich falsch.

Was kann man da machen?

Chain of Thought Prompting

Transformer stellen über Attention Worte in Bezug zueinander. Das kann man ausnutzen, indem man explizit wird und damit den Möglichkeitsraum reduziert.

"Think Step by Step"

Few Shot Prompting

A "whatpu" is a small, furry animal native to Tanzania. An example of a sentence that uses the word whatpu is:
We were traveling in Africa and we saw these very cute whatpus.

To do a "farduddle" means to jump up and down really fast. An example of a sentence that uses the word farduddle is:

Prompt Engineering

Teenage Sex Level: Alle reden darüber, die wenigsten machen es, und dann nur schlecht.

Trial and Error

Der Prompt hat einmal funktioniert, also wird er deployed. Bei Fehlern wird korrigiert.

Tracking

Prompts und Antworten werden gespeichert und kontrolliert.

RLHF

Der Nutzer gibt Feedback über das Ergebnis, falsch oder schlecht markierte Ergebnisse werden kontrolliert und als Regression genutzt.

Prompt Injection

Indirect Prompt Injection

Prompt Leaking

IDS - wiederkennen bekannter Angriffe über
- Heuristik
- LLM-Validierung
- Vektordatenbank
Canarys zur Leaking Detection.

Rebuff.io

Security über durch LLM ausgeführte DSL
Einbettung in LangChain
Beschränkungen für
- Themen
- Safety
- Security

NVIDIA NeMo guardrails

Observability

"Mit der Einführung von OpenAI Functions
hat sich die Tokenzahl verfünffacht."

AIM: OSS-Tracing

https://aimstack.io/

Weights and Biases

SAAS: Alles von Ops bis Monitoring und Prompthandling

https://wandb.ai/site/solutions/llmops

Graphsignal.com

SAAS: Tracing, Monitoring und Cost Monitoring https://graphsignal.com/

Open telemetry

Es gibt noch keine offizielle Integration, aber es lässt sich gut integrieren - siehe https://medium.com/@bocytko/opentelemetry-meets-openai-95f873aa2e41

TEsting / QA

Wie werden LLM-Apps und Prompts gut getestet?

Fazit: Einstieg in LLMS

LLM auswählen, Playground stellen

Compliance, Security & Privacy klären

Prototypen bauen

Blueprint bereitstellen

Observability, PII & FinOps

Copy of LLMOps

By Johann-Peter Hartmann

Copy of LLMOps

Die ganze Welt redet über AI, und meint damit im Moment vor allem LLMs, die Large Language Models. Aber was bedeuten sie für Operations und Cloud? Welches Model nehme ich, was muss ich dabei beachten? Wie betreibe ich solche Modelle selbst, und wie mache ich FinOps, wenn ich nach Token bezahle? Wie sieht Observability bei LLMs aus, und was muss ich beachten, wenn ich meine eigenen Modelle trainieren will? Wir geben einmal die Breitseite über alles, was den Betrieb von LLMs angeht, von Privacy über FineTuning zu Kosten.

2 years ago
262

LLM vs Ops

Large Language Models

Actual plan

Emergent...

How to use LLMs

THE LLM Stack

Website/Chatbot

Large Language Model

Attributes of LLMs

GPT-3.5-Turbo

GTP-4

Strategie

OpenAI LLMS

Available as OpenAI-Service @ Azure

Claude Instant

Claude v1

Strategie

Antrophic LLMS

Available as BEDROCK-Service @ AWS

Google PALM2

Cohere CORAL

AI21 J1

Additional LLMs

Since there is a lot of VC involved, one new multimillion startup per month

LLAMA-Family

Falcon

Mosaic MPT

Open Source LLMS

Finetuning++

DEMO

Training

Fine-Tuning

Fine-Tuning

VEkTORDatenbank

Vector-DBs

Vector-DBs

Vector-DBs

Vector-DBs

Vector-DBs

Training, Finetuning, VectorDB

Tra

Finetuning

Training

Prompting

〞

Halluzinationen

Chain of Thought Prompting

Few Shot Prompting

Prompt Engineering

Trial and Error

Tracking

RLHF

Rebuff.io

NVIDIA NeMo guardrails

Observability

AIM: OSS-Tracing

Weights and Biases

Graphsignal.com

Open telemetry

TEsting / QA

Fazit: Einstieg in LLMS

Copy of LLMOps

More from Johann-Peter Hartmann