Die
neue
Architektur

Erste Generation KI-Agenten

Chat with my Documents

Plus Ingest

Gesamtarchitektur

Unternehmensarchitektur

Weil die Daten inzwischen veraltet sind.
Weil es nicht alle Daten sind.
Weil immer alles eingelesen wird.
Weil da keine Observability ist.
Weil da kein Backup ist.
Weil da kein Skalieren ist.
Weil da kein FinOps ist.
Weil das Dinge halluziniert.
Weil die richtige Antwort nicht gefunden wird.
Weil ich mich nicht darauf verlassen kann.

"Ok, und wenn wir das
mal richtig machen würden?"

Ingest immer aktuell:
Orchestrierung

Ablaufsteuerung
Ressourcen-Schutz
Fehler-Resilienz
Caching
Monitoring.

Ingest benchmarkbar:
Ragas-Tests

End-to-End Evaluation
Metriken-Set
Testdaten-Generator
LLM-as-a-Judge
Integration

Jedes RAG-System beginnt mit einem Dataset.

Hybrid Rag

"Aber es steht doch da!"

"Den Text aus dem PDF extrahieren"

Wo ist hier der relevante Kontext?

Welcher Text bezieht sich auf was?

Einfach
Extrahieren!

BILLY BÜCHERREGAL

# TEILE ZUSAMMENFÜGEN

Verwende karamellisierten Zucker oder Glasur!

# 1 SCHNEIDE DIE SCHABLONEN AUS

# 2 SCHNEIDE DIE FORMEN MIT HILFE DER SCHABLONEN AUS

# TEILE ZUSAMMENFÜGEN

Verwende karamellisierten Zucker oder Glasur.

Bei Verwendung von Zucker: Etwas Kristallzucker in einer Pfanne schmelzen, um das Eintauchen der Kanten der großen Lebkuchenstücke zu erleichtern. Der Zucker wird schnell – in nur ein bis zwei Minuten – wieder fest.

Vorsicht beim Handhaben heißer Teile und Materialien!

Der Text ...

Die Funktion des Textes ...

Die Bilder...

Der Text in den Bildern/OCR

Die rekonstruierten Tabellen im Dokument

Die Daten der Diagramme im Dokument

Der Erklärungen in den Flussdiagrammen
Metadata Extraction (Titel, Autor, Referenzen)

Image Enrichment

Einfach Transcribieren!

Tonspur?

Transcription?

Der Kontext ergibt sich aus Video
und Bild, zeitlich integriert

Dagster-Pipeline mit

DistilWhisper &
ffmpeg Scene Detection &
OpenAi Bilderklärung

Graph-RAG

Versteckte Zusammenhänge finden, holistische Fragen beantworten, Multi-Rag per Recherche.

Volle Ingest-Strecke.

LLM-ops

Tracing & Debugging

Live-Monitoring

Evaluation

Dataset & Testing

LLM-Gateway & Cache

Alle Backends (quasi)
Viele Caching-Strategien
PII Maskierung
Balancing, Failover, Rate Limiting
Budgeting
Guardrails (nächster Slide)

Guard
Rails

Kommerziell:
- Microsoft Prompt Shields
- OpenAI Defenses
- Amazon Bedrock
Frei
- Llama von Meta
- Nemo von Nvidia

Simple
Agents

Simple Prompt Chain
RAG Chain
Simpler ReAct Agent

An LLM agent runs tools in a loop to achieve a goal.

MCP

"USB für KI"

Tools
Resourcen
Prompts

MCP Registry

Discovery (Auffindbarkeit)
Metadaten
Dezentralität

"Hatten wir da nicht einen MCP-Server für?"

Human in the Loop

Auth-Integration

Aber es darf doch nicht jeder alle Daten sehen!

Authentifiziert gegen OAuth
Audit Logs
Freigabe von Tools

Code Execution

Verlässliches Arbeiten mit Daten
Komplexe Probleme lösen

MCP Code Mode/Execution

Wie man Firmendaten trotz LLM absichert.

Zero
Trust

NEVER TRUST, ALWAYS VERIFY
Jeder Agent und jede Interaktion wird validiert.
ASSUME BREACH
Design als ob der Hacker schon da wäre
LEAST PRIVILEGE
Minimale Berechtigungen für spezifische Tasks
EXPLICIT VERIFICATION
Kontinuierliche Authentifikation & Authorisierung
MICROSEGMENTATION
Netzwerk/Identity-Isolation pro Agent
ASSUME NO IMPLICIT TRUST
Auch internen Agenten wird nicht getraut.

MCP und A2A bringen alles mit

Browser Use

Wir haben authentifzierte Nutzer
Wir haben Audit-Logs
Wir haben Reflektion & Roll-Back

Warum lassen wir sie dann nicht für uns Webapps bedienen?

Computer-Use-Agents

Eingabe & Streaming
Formatierung
Model, Thinking
Aktive Tools
Shared State
Voice-Frontend

Frontend: Chat

Canvas

Code, Markdown
Tool Results & Sources
Specialized GUI
Synchronisiert mit Chat
Synchronisiert mit Agent
"Was sieht der Nutzer gerade"

Spreadsheet

Memory

Memory

Level 0: Statische Agents
Fest programmiert, keine Anpassung
Level 1: Reactive Agents
Eingabe → Ausgabe, einfaches Feedback
Level 2: Deliberative Agents
Planning, internes Weltmodell
Level 3: Learning Agents
Lernen aus Erfahrung, Strategieanpassung
Level 4: Metacognitive Agents
Self-Evaluation, Meta-Learning Level 5: Self-Evolving Agents Autonome Architektur-Evolution

Agent-Testing

Goal Accuracy
Hat der Agent das Ziel des Benutzers identifiziert und erreicht?
Tool Call Accuracy
Wurden die richtigen Tools mit korrekten Parametern aufgerufen?
Trajectory Evaluation
Bewertet die Sequenz der Aktionen - war der Lösungsweg logisch und effizient?
Topic Adherence
Bleibt der Agent innerhalb der vorgegebenen Domänen/Themen?
Tool Call F1-Score
Kombiniert Präzision und Recall der Werkzeugaufrufe - wie nah kam der Agent am erwarteten Verhalten?

An LLM agent runs tools in a loop to achieve a goal.

Workflows
Follow fixed, structured paths for predictable results, but offer less flexibility.
Agents:
Use an LLM to choose tools and achieve goals, providing autonomy but with varying predictability.
Agentic Systems:
Consisting of workflows and agents.

Self-Reflection

Reflecion mit Tools

Komplexe
Agenten

Plan & Execute
ReAct mit Memory
Claude Plan Mode

Aber:
Mehr Schleifen =
Mehr Context =
Mehr Chaos

Richtige Agenten

Durable Execution (Checkpointing)
Full Tracing (LangSmith/Langfuse)
Debugging ohne Traces ist hoffnungslos
Bounded Loops mit Iteration Limits
Systematic Evaluation
(LLM-as-Judge, nicht nur Unit Tests)
Context Management
(für lange Conversations)
Hierarchical Agents mit Failure-Propagation
Parallel Tool Execution mit Partial State Recovery

LangGraph

Workflows _und_ Agenten
Pregel-Ansatz (aus Pagerank)
- Verteilbarer State
- Schleifen
Checkpointing
- Rollbacks
- Memory
Multiagenten-Support
- Supervisor
- Swarm
- Deep Agents

Context Management
- Sliding Window
- Summary & Recent
- ...
Shared State
- Parallelisierung über Reducer
- Partial States
- Command Pattern
Memory Management
- Langmem

Triggert Not-invented-Here-Syndrome

Jede hinreichend komplexe eigene Lösung sieht ähnlich aus.

Agentic Rag

hybrid retrieval
reranking
nachträglicher Check:
- Grounding?
- Halluzination?
- Guardrails/Violations?
Falls ja:
- Korrektur zum Nutzer

Deep Agents

Learning Agents

https://github.com/johannhartmann/learning-agent

Erfassen: Learnings werden automatisch nach jeder Konversation extrahiert
Analysieren: Erkennt Tool-Nutzungsmuster und Ineffizienzen
Extrahieren: LLM generiert taktische, strategische und Meta-Erkenntnisse
Speichern: PostgreSQL + pgvector mit dualen Embeddings
Abrufen: Vektorsuche findet ähnliche Erfahrungen bei neuen Aufgaben
Anwenden: Agent erhält relevante Learnings als Kontext

Coaching

Agents

Läuft im Hintergrund
Shared Memory & State
Injected Messages in den
Hauptagenten.

Claude Code

Learnings

Wer heute keine Produktiv-Plattform für Agenten hat, hat ein Problem
Jeder Agent beginnt mit einem Dataset
Sicherheit ist mühsam.

Die neue Architektur

By Johann-Peter Hartmann

Die neue Architektur

2023 kamen Chatbots als User-Interface und RAG als Architektur in unsere Organisationen, 2024 war das Jahr der Agenten, zunächst als einfache ReAct-Agenten mit Tools, später als echte agentische Systeme mit Workflow- und State-Management, HandOff und vielem mehr. 2025 werden sie erstmalig ihrer Definition gerecht. Mit Googles A2A kommunizieren sie untereinander, greifen per MCP auf ihre eigene Servicelandschaft zu, lernen mit Werkzeugen wie LangMem über Zeit dazu und optimieren sich mit Werkzeugen wie mit DSPy selbstständig. Statt domänengetriebener Zerlegung in Services oder modulare Monolithen zerlegen wir agentische Systeme in Agenten und Workflows, statt APIs nutzen wir MCP, A2A und mit dem nötigen Kontextwissen versorgte Hand-Offs. Das erzeugt nicht nur neue Architekturmuster, sondern neue Plattformen, neue Schnittstellen, neue Discovery- und Kommunikationsstrategien.

Die neue Architektur

Erste Generation KI-Agenten

Chat with my Documents

Plus Ingest

Gesamtarchitektur

Unternehmensarchitektur

"Ok, und wenn wir das mal richtig machen würden?"

Ingest immer aktuell: Orchestrierung

Ingest benchmarkbar: Ragas-Tests

Hybrid Rag

"Aber es steht doch da!"

Einfach Extrahieren!

Image Enrichment

Einfach Transcribieren!

Graph-RAG

Volle Ingest-Strecke.

LLM-ops

LLM-Gateway & Cache

Guard Rails

Simple Agents

MCP

MCP Registry

Human in the Loop

Auth-Integration

Code Execution

MCP Code Mode/Execution

Zero Trust

MCP und A2A bringen alles mit

Browser Use

Computer-Use-Agents

Frontend: Chat

Canvas

Spreadsheet

Memory

Memory

Agent-Testing

Self-Reflection

Reflecion mit Tools

Komplexe Agenten

Richtige Agenten

LangGraph

Agentic Rag

Deep Agents

Learning Agents

Coaching

Agents

Claude Code

Learnings

Die neue Architektur

More from Johann-Peter Hartmann

Die
neue
Architektur

"Ok, und wenn wir das
mal richtig machen würden?"

Ingest immer aktuell:
Orchestrierung

Ingest benchmarkbar:
Ragas-Tests

Einfach
Extrahieren!

Guard
Rails

Simple
Agents

Zero
Trust

Komplexe
Agenten