Die
neue
Architektur

Erste Generation KI-Agenten

Chat with my Documents

Plus Ingest

Gesamtarchitektur

Unternehmensarchitektur



- Weil die Daten inzwischen veraltet sind.
- Weil es nicht alle Daten sind.
- Weil immer alles eingelesen wird.
- Weil da keine Observability ist.
- Weil da kein Backup ist.
- Weil da kein Skalieren ist.
- Weil da kein FinOps ist.
- Weil das Dinge halluziniert.
- Weil die richtige Antwort nicht gefunden wird.
- Weil ich mich nicht darauf verlassen kann.
"Ok, und wenn wir das
mal richtig machen würden?"
Ingest immer aktuell:
Orchestrierung




- Ablaufsteuerung
- Ressourcen-Schutz
- Fehler-Resilienz
- Caching
- Monitoring.
Ingest benchmarkbar:
Ragas-Tests
- End-to-End Evaluation
- Metriken-Set
- Testdaten-Generator
- LLM-as-a-Judge
- Integration

Jedes RAG-System beginnt mit einem Dataset.
Hybrid Rag


"Aber es steht doch da!"
"Den Text aus dem PDF extrahieren"

Wo ist hier der relevante Kontext?
Welcher Text bezieht sich auf was?
Einfach
Extrahieren!

BILLY BÜCHERREGAL
# TEILE ZUSAMMENFÜGEN
Verwende karamellisierten Zucker oder Glasur!
# 1 SCHNEIDE DIE SCHABLONEN AUS
# 2 SCHNEIDE DIE FORMEN MIT HILFE DER SCHABLONEN AUS
# TEILE ZUSAMMENFÜGEN
Verwende karamellisierten Zucker oder Glasur.
Bei Verwendung von Zucker: Etwas Kristallzucker in einer Pfanne schmelzen, um das Eintauchen der Kanten der großen Lebkuchenstücke zu erleichtern. Der Zucker wird schnell – in nur ein bis zwei Minuten – wieder fest.
Vorsicht beim Handhaben heißer Teile und Materialien!

Der Text ...
Die Funktion des Textes ...
Die Bilder...
Der Text in den Bildern/OCR
Die rekonstruierten Tabellen im Dokument
Die Daten der Diagramme im Dokument
Der Erklärungen in den Flussdiagrammen
Metadata Extraction (Titel, Autor, Referenzen)

Image Enrichment




Einfach Transcribieren!

Tonspur?
Transcription?
Der Kontext ergibt sich aus Video
und Bild, zeitlich integriert
Dagster-Pipeline mit
DistilWhisper &
ffmpeg Scene Detection &
OpenAi Bilderklärung

Graph-RAG
Versteckte Zusammenhänge finden, holistische Fragen beantworten, Multi-Rag per Recherche.
Volle Ingest-Strecke.


LLM-ops
Tracing & Debugging
Live-Monitoring
Evaluation
Dataset & Testing

LLM-Gateway & Cache

- Alle Backends (quasi)
- Viele Caching-Strategien
- PII Maskierung
- Balancing, Failover, Rate Limiting
- Budgeting
- Guardrails (nächster Slide)
Guard
Rails

- Kommerziell:
- Microsoft Prompt Shields
- OpenAI Defenses
- Amazon Bedrock
- Frei
- Llama von Meta
- Nemo von Nvidia
Simple
Agents


- Simple Prompt Chain
- RAG Chain
- Simpler ReAct Agent
An LLM agent runs tools in a loop to achieve a goal.


MCP
"USB für KI"
- Tools
- Resourcen
- Prompts
MCP Registry
- Discovery (Auffindbarkeit)
- Metadaten
- Dezentralität

"Hatten wir da nicht einen MCP-Server für?"
Human in the Loop

Auth-Integration
Aber es darf doch nicht jeder alle Daten sehen!

-
Authentifiziert gegen OAuth
-
Audit Logs
-
Freigabe von Tools

Code Execution

-
Verlässliches Arbeiten mit Daten
-
Komplexe Probleme lösen
MCP Code Mode/Execution
Wie man Firmendaten trotz LLM absichert.


Zero
Trust
- NEVER TRUST, ALWAYS VERIFY
Jeder Agent und jede Interaktion wird validiert. - ASSUME BREACH
Design als ob der Hacker schon da wäre - LEAST PRIVILEGE
Minimale Berechtigungen für spezifische Tasks - EXPLICIT VERIFICATION
Kontinuierliche Authentifikation & Authorisierung - MICROSEGMENTATION
Netzwerk/Identity-Isolation pro Agent - ASSUME NO IMPLICIT TRUST
Auch internen Agenten wird nicht getraut.

MCP und A2A bringen alles mit
Browser Use

-
Wir haben authentifzierte Nutzer
-
Wir haben Audit-Logs
-
Wir haben Reflektion & Roll-Back
Warum lassen wir sie dann nicht für uns Webapps bedienen?
Computer-Use-Agents


-
Eingabe & Streaming
-
Formatierung
-
Model, Thinking
-
Aktive Tools
-
Shared State
-
Voice-Frontend

Frontend: Chat

Canvas
-
Code, Markdown
-
Tool Results & Sources
-
Specialized GUI
-
Synchronisiert mit Chat
-
Synchronisiert mit Agent
-
"Was sieht der Nutzer gerade"


Spreadsheet
Memory

Memory



- Level 0: Statische Agents
Fest programmiert, keine Anpassung
- Level 1: Reactive Agents
Eingabe → Ausgabe, einfaches Feedback
- Level 2: Deliberative Agents
Planning, internes Weltmodell
- Level 3: Learning Agents
Lernen aus Erfahrung, Strategieanpassung
- Level 4: Metacognitive Agents
Self-Evaluation, Meta-Learning Level 5: Self-Evolving Agents Autonome Architektur-Evolution

Agent-Testing

- Goal Accuracy
Hat der Agent das Ziel des Benutzers identifiziert und erreicht? -
Tool Call Accuracy
Wurden die richtigen Tools mit korrekten Parametern aufgerufen? -
Trajectory Evaluation
Bewertet die Sequenz der Aktionen - war der Lösungsweg logisch und effizient? -
Topic Adherence
Bleibt der Agent innerhalb der vorgegebenen Domänen/Themen? -
Tool Call F1-Score
Kombiniert Präzision und Recall der Werkzeugaufrufe - wie nah kam der Agent am erwarteten Verhalten?

An LLM agent runs tools in a loop to achieve a goal.
-
Workflows
Follow fixed, structured paths for predictable results, but offer less flexibility.
-
Agents:
Use an LLM to choose tools and achieve goals, providing autonomy but with varying predictability.
-
Agentic Systems:
Consisting of workflows and agents.


Self-Reflection

Reflecion mit Tools

Komplexe
Agenten



- Plan & Execute
- ReAct mit Memory
- Claude Plan Mode
Aber:
Mehr Schleifen =
Mehr Context =
Mehr Chaos
Richtige Agenten
-
Durable Execution (Checkpointing)
-
Full Tracing (LangSmith/Langfuse)
Debugging ohne Traces ist hoffnungslos
-
Bounded Loops mit Iteration Limits
-
Systematic Evaluation
(LLM-as-Judge, nicht nur Unit Tests)
-
Context Management
(für lange Conversations)
-
Hierarchical Agents mit Failure-Propagation
- Parallel Tool Execution mit Partial State Recovery

LangGraph
-
Workflows _und_ Agenten
-
Pregel-Ansatz (aus Pagerank)
-
Verteilbarer State
-
Schleifen
-
-
Checkpointing
-
Rollbacks
-
Memory
-
-
Multiagenten-Support
-
Supervisor
-
Swarm
-
Deep Agents
-
- Context Management
- Sliding Window
- Summary & Recent
- ...
- Shared State
- Parallelisierung über Reducer
- Partial States
- Command Pattern
- Memory Management
- Langmem
Triggert Not-invented-Here-Syndrome
Jede hinreichend komplexe eigene Lösung sieht ähnlich aus.

Agentic Rag
- hybrid retrieval
- reranking
- nachträglicher Check:
- Grounding?
- Halluzination?
- Guardrails/Violations?
- Falls ja:
- Korrektur zum Nutzer

Deep Agents

Learning Agents
https://github.com/johannhartmann/learning-agent


- Erfassen: Learnings werden automatisch nach jeder Konversation extrahiert
- Analysieren: Erkennt Tool-Nutzungsmuster und Ineffizienzen
- Extrahieren: LLM generiert taktische, strategische und Meta-Erkenntnisse
- Speichern: PostgreSQL + pgvector mit dualen Embeddings
- Abrufen: Vektorsuche findet ähnliche Erfahrungen bei neuen Aufgaben
- Anwenden: Agent erhält relevante Learnings als Kontext
Coaching
Agents

- Läuft im Hintergrund
- Shared Memory & State
- Injected Messages in den
Hauptagenten.
Claude Code



Learnings
- Wer heute keine Produktiv-Plattform für Agenten hat, hat ein Problem
- Jeder Agent beginnt mit einem Dataset
- Sicherheit ist mühsam.

Die neue Architektur
By Johann-Peter Hartmann
Die neue Architektur
2023 kamen Chatbots als User-Interface und RAG als Architektur in unsere Organisationen, 2024 war das Jahr der Agenten, zunächst als einfache ReAct-Agenten mit Tools, später als echte agentische Systeme mit Workflow- und State-Management, HandOff und vielem mehr. 2025 werden sie erstmalig ihrer Definition gerecht. Mit Googles A2A kommunizieren sie untereinander, greifen per MCP auf ihre eigene Servicelandschaft zu, lernen mit Werkzeugen wie LangMem über Zeit dazu und optimieren sich mit Werkzeugen wie mit DSPy selbstständig. Statt domänengetriebener Zerlegung in Services oder modulare Monolithen zerlegen wir agentische Systeme in Agenten und Workflows, statt APIs nutzen wir MCP, A2A und mit dem nötigen Kontextwissen versorgte Hand-Offs. Das erzeugt nicht nur neue Architekturmuster, sondern neue Plattformen, neue Schnittstellen, neue Discovery- und Kommunikationsstrategien.
- 110