LLM vs Ops

Der erste-Hilfe-Kasten, wenn der CEO im In-Flight-Magazin etwas über AI gelesen hat.

Large Language Models

"Das, was auch ChatGPT macht."

  • Texte fortsetzen
  • Zusammenfassen
  • Klassifizieren
  • Fragen beantworten

Eigentlich nur ..

  • Instruktionen ausführen
  • Reasoning
  • Entscheiden
  • Ergebnisse Evaluieren

Aber...

LLMs Nutzen

Was bedeutet es, ein LLM-Basierte AI-Lösungen zu betreiben?

Der LLM-Stack

  • Meist Web, API,WebSockets

  • Streamingfähig!

  • oft Python/NodeJS 

  • Aufgaben

    • Prompt Generation

    • Authentification

    • Input Filtering

    • PII Scrubbing/Replacing

  • Existierende Ops-Platform

Website/Chatbot

  • Inferenz, kein Training :-)

  • Auswahl des Models

  • Text Generation

  • Token Streaming

  • Watermarking

  • "pip install" APIs

Large Language Model

Faktor Relevanz
Speed Responsivität in token/Sekunde
Kosten Kosten in $/1000 Token
Instruction Following Wie gut werden unterschiedlich komplexe Instruktionen ausgeführt?
Reasoning Wie gut werden logische bis mathematische Zusammenhänge aufgelöst?
Size Wie viele Parameter/Weltwissen hat es?
Context Size Wie grosse darf der Prompt sein?

Faktoren für LLMs

GPT-3.5-Turbo

Context-Size 4k-16k

500.000 token/$

GTP-4

Context-Size 4k-32k

17.000 token/$

Strategie

Default zu GPT-3.5-turbo

Bei komplexen Tasks GPT-4

OpenAI LLMS

Auch als OpenAI-Service bei Azure

Claude Instant

Context-Size 100k!

180.000 token/$

Claude v1

Context-Size 100k!

28.000 token/$

Strategie

Default zu Instant

Bei komplexen Tasks V1

Antrophic LLMS

Auch als BEDROCK-Service AUF AWS

Google PALM2

Context-Size 8k

Pricing ?

Cohere CORAL

Context-Size 2k

250.000 token/$

AI21 J1

Fokus auf eigenes Training

Mehrere Modelle zur Auswahl

Fokus auf eigenes Training

Mehrere Modelle zur Auswahl

Weitere LLMS

Und viele neue, die zum Teil sogar deutsch können :-)

Context-Size 8k

66.666 token/$

LLAMA-Familie

Context-Size Flexible

Pricing: günstig

Falcon

Context-Size 2k

250.000 token/$

Mosaic MPT

Vollständig frei

Bisher nur 7b Parameter

Aus den arabischen Emiraten

Vollständig Apache2-Lizensiert.

Aktuell mächtigstes OpenSource-Modell

Open Source LLMS

Context-Size 8k

66.666 token/$

"Geleaked" von Facebook

Schnell adaptiert und erweitert

Schnell adaptiert und erweitert

Verbesserte Training, Instructions, Qualität

Redpajama/OpenLLama-Efforts

Finetuning++

DEMO

Oder warum viele AI-Experten über "Oobabooga" reden...

Training

... Deshalb ist meist Finetuning gemeint, wenn von Training geredet wird ...

Fine-Tuning

Dank der OpenSource-Community inzwischen auf Consumer-Hardware möglich.

Fine-Tuning

  • Prompting statt Fine-Tuning

  • Hochdimensional semantisch abgelegt

  • Suche über Next-Neighbor

  • Auswahl relevanter Information geschieht im Prompt

VEkTORDatenbank

Vector-DBs

Vector-DBs

OpenAI-Embeddings zB 1526 Dimensionen

Vector-DBs

Embeddings wandeln von Text zu Vektoren. Sie können lokal oder remote passieren.

Vector-DBs

OpenSource, SAAS, remote, lokal, Cloud, Kubernetes, hybrid, mit Fulltext uvm - es gibt heute Auswahl.

Vector-DBs

Die ganzen "Talk to with your documents", und praktisch alle QA-Lösungen beruhen auf Vektordatenbanken.

Training, Finetuning, VectorDB

Tra

Bei bis zu 6-stelliger Anzahl von Informationen, die integriert oder nachgeschlagen werden sollen.

Finetuning

Bei umfangreichen, spezialisierten Daten - firmenintern oder extern.

Training

Selbst Foundation-Anbieter sein und sehr umfangreiches Wissen mitbringen - wie Bloomberg AI auf Basis von Bloom

Prompting

Technische Prompts, nicht Content und Marketing-Magie :-)

Text-Generation möchte nur statistisch sinnvoll Text fortsetzen.

Halluzinationen

Statistisch korrekt, sachlich falsch.

Was kann man da machen?

Chain of Thought Prompting

Transformer stellen über Attention Worte in Bezug zueinander. Das kann man ausnutzen, indem man explizit wird und damit den Möglichkeitsraum reduziert.

"Think Step by Step"

Few Shot Prompting

A "whatpu" is a small, furry animal native to Tanzania. An example of a sentence that uses the word whatpu is:
We were traveling in Africa and we saw these very cute whatpus.

To do a "farduddle" means to jump up and down really fast. An example of a sentence that uses the word farduddle is:

Prompt Engineering

Teenage Sex Level: Alle reden darüber, die wenigsten machen es, und dann nur schlecht.

Trial and Error

Der Prompt hat einmal funktioniert, also wird er deployed. Bei Fehlern wird korrigiert.

Tracking

Prompts und Antworten werden gespeichert und kontrolliert.

RLHF

Der Nutzer gibt Feedback über das Ergebnis, falsch oder schlecht markierte Ergebnisse werden kontrolliert und als Regression genutzt.

Prompt Injection

Indirect Prompt Injection

Prompt Leaking

  • IDS - wiederkennen bekannter Angriffe über

    • Heuristik

    • LLM-Validierung

    • Vektordatenbank

  • Canarys zur Leaking Detection.

Rebuff.io

  • Security über durch LLM ausgeführte DSL

  • Einbettung in LangChain

  • Beschränkungen für 

    • Themen

    • Safety

    • Security

NVIDIA NeMo guardrails

Observability

"Mit der Einführung von OpenAI Functions
hat sich die Tokenzahl verfünffacht."

AIM: OSS-Tracing

https://aimstack.io/

Weights and Biases

 SAAS: Alles von Ops bis Monitoring und Prompthandling

https://wandb.ai/site/solutions/llmops

Graphsignal.com

 SAAS: Tracing, Monitoring und Cost Monitoring https://graphsignal.com/

Open telemetry

Es gibt noch keine offizielle Integration, aber es lässt sich gut integrieren - siehe https://medium.com/@bocytko/opentelemetry-meets-openai-95f873aa2e41

TEsting / QA

Wie werden LLM-Apps und Prompts gut getestet?

Fazit: Einstieg in LLMS

LLMOps

By Johann-Peter Hartmann

LLMOps

Die ganze Welt redet über AI, und meint damit im Moment vor allem LLMs, die Large Language Models.  Aber was bedeuten sie für Operations und Cloud? Welches Model nehme ich, was muss ich dabei beachten? Wie betreibe ich solche Modelle selbst, und wie mache ich FinOps, wenn ich nach Token bezahle? Wie sieht Observability bei LLMs aus, und was muss ich beachten, wenn ich meine eigenen Modelle trainieren will?  Wir geben einmal die Breitseite über alles, was den Betrieb von LLMs angeht, von Privacy über FineTuning zu Kosten.

  • 290