Die
neue
Architektur

Erste Generation KI-Agenten

Chat with my Documents

Plus Ingest

Gesamtarchitektur

Unternehmensarchitektur

  • Weil die Daten inzwischen veraltet sind.
  • Weil es nicht alle Daten sind. 
  • Weil immer alles eingelesen wird.
  • Weil da keine Observability ist.
  • Weil da kein Backup ist. 
  • Weil da kein Skalieren ist.
  • Weil da kein FinOps ist. 
  • Weil das Dinge halluziniert.
  • Weil die richtige Antwort nicht gefunden wird.
  • Weil ich mich nicht darauf verlassen kann.

"Ok, und wenn wir das
mal richtig machen würden?"

Ingest immer aktuell:
Orchestrierung

  • Ablaufsteuerung
  • Ressourcen-Schutz
  • Fehler-Resilienz
  • Caching
  • Monitoring.

Ingest benchmarkbar:
Ragas-Tests

  • End-to-End Evaluation
  • Metriken-Set
  • Testdaten-Generator
  • LLM-as-a-Judge
  • Integration

Jedes RAG-System beginnt mit einem Dataset.

Hybrid Rag

"Aber es steht doch da!"

"Den Text aus dem PDF extrahieren"

Wo ist hier der relevante Kontext?

Welcher Text bezieht sich auf was?

Einfach
Extrahieren!

 BILLY BÜCHERREGAL

# TEILE ZUSAMMENFÜGEN

Verwende karamellisierten Zucker oder Glasur!

# 1 SCHNEIDE DIE SCHABLONEN AUS

# 2 SCHNEIDE DIE FORMEN MIT HILFE DER SCHABLONEN AUS

# TEILE ZUSAMMENFÜGEN

Verwende karamellisierten Zucker oder Glasur.

Bei Verwendung von Zucker: Etwas Kristallzucker in einer Pfanne schmelzen, um das Eintauchen der Kanten der großen Lebkuchenstücke zu erleichtern. Der Zucker wird schnell – in nur ein bis zwei Minuten – wieder fest.

Vorsicht beim Handhaben heißer Teile und Materialien!

Der Text ...

Die Funktion des Textes ...

Die Bilder...

Der Text in den Bildern/OCR

Die rekonstruierten Tabellen im Dokument

Die Daten der Diagramme im Dokument

Der Erklärungen in den Flussdiagrammen
Metadata Extraction (Titel, Autor, Referenzen)

Image Enrichment

Einfach Transcribieren!

Tonspur?

Transcription?

Der Kontext ergibt sich aus Video
und Bild, zeitlich integriert

Dagster-Pipeline mit

DistilWhisper &
ffmpeg Scene Detection &
OpenAi Bilderklärung

Graph-RAG

Versteckte Zusammenhänge finden, holistische Fragen beantworten, Multi-Rag per Recherche.

Volle Ingest-Strecke.

LLM-ops

Tracing & Debugging

Live-Monitoring

Evaluation

Dataset & Testing

LLM-Gateway & Cache

  • Alle Backends (quasi)
  • Viele Caching-Strategien
  • PII Maskierung
  • Balancing, Failover, Rate Limiting
  • Budgeting
  • Guardrails (nächster Slide)

Guard
Rails

  • Kommerziell: 
    • Microsoft Prompt Shields
    • OpenAI Defenses
    • Amazon Bedrock 
  • Frei
    • Llama von Meta
    • Nemo von Nvidia

Simple
Agents

  • Simple Prompt Chain
  • RAG Chain
     
  • Simpler ReAct Agent
     

    An LLM agent runs tools in a loop to achieve a goal.

     

MCP

"USB für KI"

  • Tools
  • Resourcen
  • Prompts

 

MCP Registry

  • Discovery (Auffindbarkeit)
  • Metadaten
  • Dezentralität

 

"Hatten wir da nicht einen MCP-Server für?"

Human in the Loop

Auth-Integration

Aber es darf doch nicht jeder alle Daten sehen!

  1. Authentifiziert gegen OAuth

  2. Audit Logs

  3. Freigabe von Tools

Code Execution

  1. Verlässliches Arbeiten mit Daten

  2. Komplexe Probleme lösen

MCP Code Mode/Execution

Wie man Firmendaten trotz LLM absichert.

Zero
Trust

  1. NEVER TRUST, ALWAYS VERIFY
    Jeder Agent und jede Interaktion wird validiert.
  2. ASSUME BREACH
    Design als ob der Hacker schon da wäre
  3. LEAST PRIVILEGE
    Minimale Berechtigungen für spezifische Tasks
  4. EXPLICIT VERIFICATION
    Kontinuierliche Authentifikation & Authorisierung
  5. MICROSEGMENTATION
    Netzwerk/Identity-Isolation pro Agent
  6. ASSUME NO IMPLICIT TRUST
    Auch internen Agenten wird nicht getraut.

MCP und A2A bringen alles mit

Browser Use

  1. Wir haben authentifzierte Nutzer

  2. Wir haben Audit-Logs

  3. Wir haben Reflektion & Roll-Back

 

Warum lassen wir sie dann nicht für uns Webapps bedienen?

Computer-Use-Agents

  • Eingabe & Streaming

  • Formatierung

  • Model, Thinking

  • Aktive Tools

  • Shared State 

  • Voice-Frontend

Frontend: Chat

Canvas

  • Code, Markdown

  • Tool Results & Sources

  • Specialized GUI
     

  • Synchronisiert mit Chat

  • Synchronisiert mit Agent
     

  • "Was sieht der Nutzer gerade"

Spreadsheet

Memory

Memory

  • Level 0: Statische Agents
    Fest programmiert, keine Anpassung
     
  • Level 1: Reactive Agents
    Eingabe → Ausgabe, einfaches Feedback
     
  • Level 2: Deliberative Agents
    Planning, internes Weltmodell
     
  • Level 3: Learning Agents
    Lernen aus Erfahrung, Strategieanpassung
     
  • Level 4: Metacognitive Agents
    Self-Evaluation, Meta-Learning Level 5: Self-Evolving Agents Autonome Architektur-Evolution  

Agent-Testing

 

  • Goal Accuracy 
    Hat der Agent das Ziel des Benutzers identifiziert und erreicht?
  • Tool Call Accuracy
    Wurden die richtigen Tools mit korrekten Parametern aufgerufen?

  • Trajectory Evaluation
    Bewertet die Sequenz der Aktionen - war der Lösungsweg logisch und effizient?

  • Topic Adherence
    Bleibt der Agent innerhalb der vorgegebenen Domänen/Themen?

  • Tool Call F1-Score 
    Kombiniert Präzision und Recall der Werkzeugaufrufe - wie nah kam der Agent am erwarteten Verhalten?

An LLM agent runs tools in a loop to achieve a goal.

 

  • Workflows
    Follow fixed, structured paths for predictable results, but offer less flexibility.
     

  • Agents: 
    Use an LLM to choose tools and achieve goals, providing autonomy but with varying predictability.
     

  • Agentic Systems: 
    Consisting of workflows and agents.

Self-Reflection

Reflecion mit Tools

Komplexe
Agenten

  • Plan & Execute
  • ReAct mit Memory
  • Claude Plan Mode

Aber:
Mehr Schleifen =
Mehr Context =
Mehr Chaos

Richtige Agenten

  1. Durable Execution (Checkpointing)
     
  2. Full Tracing (LangSmith/Langfuse)
    Debugging ohne Traces ist hoffnungslos
     
  3. Bounded Loops mit Iteration Limits
     
  4. Systematic Evaluation 
    (LLM-as-Judge, nicht nur Unit Tests)
     
  5. Context Management
    (für lange Conversations)
     
  6. Hierarchical Agents mit Failure-Propagation
     
  7. Parallel Tool Execution mit Partial State Recovery

LangGraph

  • Workflows _und_ Agenten

  • Pregel-Ansatz (aus Pagerank)

    • Verteilbarer State

    • Schleifen

  • Checkpointing

    • ​Rollbacks

    • Memory

  • Multiagenten-Support

    • Supervisor

    • Swarm

    • Deep Agents

  • Context Management
    • Sliding Window
    • Summary & Recent
    • ...
  • Shared State 
    • Parallelisierung über Reducer
    • Partial States
    • Command Pattern
  • Memory Management
    • Langmem

 

Triggert Not-invented-Here-Syndrome
 

Jede hinreichend komplexe eigene Lösung sieht ähnlich aus.

Agentic Rag

  • hybrid retrieval
  • reranking
  • nachträglicher Check: 
    • Grounding?
    • Halluzination?
    • Guardrails/Violations?
  • Falls ja: 
    • Korrektur zum Nutzer

Deep Agents

Learning Agents

https://github.com/johannhartmann/learning-agent

  • Erfassen: Learnings werden automatisch nach jeder Konversation extrahiert
  • Analysieren: Erkennt Tool-Nutzungsmuster und Ineffizienzen
  • Extrahieren: LLM generiert taktische, strategische und Meta-Erkenntnisse
  • Speichern: PostgreSQL + pgvector mit dualen Embeddings
  • Abrufen: Vektorsuche findet ähnliche Erfahrungen bei neuen Aufgaben
  • Anwenden: Agent erhält relevante Learnings als Kontext

Coaching

Agents

  • Läuft im Hintergrund
  • Shared Memory & State 
  • Injected Messages in den
    Hauptagenten.

Claude Code

Learnings

  1. Wer heute keine Produktiv-Plattform für Agenten hat, hat ein Problem
     
  2. Jeder Agent beginnt mit einem Dataset
     
  3. Sicherheit ist mühsam. 

Die neue Architektur

By Johann-Peter Hartmann

Die neue Architektur

2023 kamen Chatbots als User-Interface und RAG als Architektur in unsere Organisationen, 2024 war das Jahr der Agenten, zunächst als einfache ReAct-Agenten mit Tools, später als echte agentische Systeme mit Workflow- und State-Management, HandOff und vielem mehr. 2025 werden sie erstmalig ihrer Definition gerecht. Mit Googles A2A kommunizieren sie untereinander, greifen per MCP auf ihre eigene Servicelandschaft zu, lernen mit Werkzeugen wie LangMem über Zeit dazu und optimieren sich mit Werkzeugen wie mit DSPy selbstständig. Statt domänengetriebener Zerlegung in Services oder modulare Monolithen zerlegen wir agentische Systeme in Agenten und Workflows, statt APIs nutzen wir MCP, A2A und mit dem nötigen Kontextwissen versorgte Hand-Offs. Das erzeugt nicht nur neue Architekturmuster, sondern neue Plattformen, neue Schnittstellen, neue Discovery- und Kommunikationsstrategien.

  • 110