Der erste-Hilfe-Kasten, wenn der CEO im In-Flight-Magazin etwas über AI gelesen hat.
"Das, was auch ChatGPT macht."
Was bedeutet es, ein LLM-Basierte AI-Lösungen zu betreiben?
Meist Web, API,WebSockets
Streamingfähig!
oft Python/NodeJS
Aufgaben
Prompt Generation
Authentification
Input Filtering
PII Scrubbing/Replacing
Existierende Ops-Platform
Inferenz, kein Training :-)
Auswahl des Models
Text Generation
Token Streaming
Watermarking
"pip install" APIs
Faktor | Relevanz |
---|---|
Speed | Responsivität in token/Sekunde |
Kosten | Kosten in $/1000 Token |
Instruction Following | Wie gut werden unterschiedlich komplexe Instruktionen ausgeführt? |
Reasoning | Wie gut werden logische bis mathematische Zusammenhänge aufgelöst? |
Size | Wie viele Parameter/Weltwissen hat es? |
Context Size | Wie grosse darf der Prompt sein? |
Context-Size 4k-16k
500.000 token/$
Context-Size 4k-32k
17.000 token/$
Default zu GPT-3.5-turbo
Bei komplexen Tasks GPT-4
Context-Size 100k!
180.000 token/$
Context-Size 100k!
28.000 token/$
Default zu Instant
Bei komplexen Tasks V1
Context-Size 8k
Pricing ?
Context-Size 2k
250.000 token/$
Fokus auf eigenes Training
Mehrere Modelle zur Auswahl
Fokus auf eigenes Training
Mehrere Modelle zur Auswahl
Context-Size 8k
66.666 token/$
Context-Size Flexible
Pricing: günstig
Context-Size 2k
250.000 token/$
Vollständig frei
Bisher nur 7b Parameter
Aus den arabischen Emiraten
Vollständig Apache2-Lizensiert.
Aktuell mächtigstes OpenSource-Modell
Context-Size 8k
66.666 token/$
"Geleaked" von Facebook
Schnell adaptiert und erweitert
Schnell adaptiert und erweitert
Verbesserte Training, Instructions, Qualität
Redpajama/OpenLLama-Efforts
Oder warum viele AI-Experten über "Oobabooga" reden...
... Deshalb ist meist Finetuning gemeint, wenn von Training geredet wird ...
Dank der OpenSource-Community inzwischen auf Consumer-Hardware möglich.
Prompting statt Fine-Tuning
Hochdimensional semantisch abgelegt
Suche über Next-Neighbor
Auswahl relevanter Information geschieht im Prompt
OpenAI-Embeddings zB 1526 Dimensionen
Embeddings wandeln von Text zu Vektoren. Sie können lokal oder remote passieren.
OpenSource, SAAS, remote, lokal, Cloud, Kubernetes, hybrid, mit Fulltext uvm - es gibt heute Auswahl.
Die ganzen "Talk to with your documents", und praktisch alle QA-Lösungen beruhen auf Vektordatenbanken.
Bei bis zu 6-stelliger Anzahl von Informationen, die integriert oder nachgeschlagen werden sollen.
Bei umfangreichen, spezialisierten Daten - firmenintern oder extern.
Selbst Foundation-Anbieter sein und sehr umfangreiches Wissen mitbringen - wie Bloomberg AI auf Basis von Bloom
Technische Prompts, nicht Content und Marketing-Magie :-)
Text-Generation möchte nur statistisch sinnvoll Text fortsetzen.
Statistisch korrekt, sachlich falsch.
Was kann man da machen?
Transformer stellen über Attention Worte in Bezug zueinander. Das kann man ausnutzen, indem man explizit wird und damit den Möglichkeitsraum reduziert.
"Think Step by Step"
A "whatpu" is a small, furry animal native to Tanzania. An example of a sentence that uses the word whatpu is:
We were traveling in Africa and we saw these very cute whatpus.
To do a "farduddle" means to jump up and down really fast. An example of a sentence that uses the word farduddle is:
Teenage Sex Level: Alle reden darüber, die wenigsten machen es, und dann nur schlecht.
Der Prompt hat einmal funktioniert, also wird er deployed. Bei Fehlern wird korrigiert.
Prompts und Antworten werden gespeichert und kontrolliert.
Der Nutzer gibt Feedback über das Ergebnis, falsch oder schlecht markierte Ergebnisse werden kontrolliert und als Regression genutzt.
Prompt Injection
Indirect Prompt Injection
Prompt Leaking
IDS - wiederkennen bekannter Angriffe über
Heuristik
LLM-Validierung
Vektordatenbank
Canarys zur Leaking Detection.
Security über durch LLM ausgeführte DSL
Einbettung in LangChain
Beschränkungen für
Themen
Safety
Security
"Mit der Einführung von OpenAI Functions
hat sich die Tokenzahl verfünffacht."
https://aimstack.io/
SAAS: Alles von Ops bis Monitoring und Prompthandling
https://wandb.ai/site/solutions/llmops
SAAS: Tracing, Monitoring und Cost Monitoring https://graphsignal.com/
Es gibt noch keine offizielle Integration, aber es lässt sich gut integrieren - siehe https://medium.com/@bocytko/opentelemetry-meets-openai-95f873aa2e41
Wie werden LLM-Apps und Prompts gut getestet?