AI Workloads vs Data Platforms

Wer nutzt RAG?

RAG 2023

  • Ingest-Job in Python oder Tool
  • On Demand gestartet
  • Naive Transformation, Splitting, Embedding
     
  • Alternativ: Builtin bei LangDock/LibreChat/OpenWebUI/Microsoft

RAG 2025

Alle relevanten Daten

Unstrukturierte Daten:

  • PDF / Doc / XLS / ODF / Scans / Bilder / Mails
  • URLs / HTML / JSON/ Scraping / Applications

Strukturierte Daten: 

  • Relationale Daten, Graph-Datenbanken, ......

Day 2 Parsing

"Den Text aus dem PDF extrahieren"

Wo ist hier der relevante Kontext?

Welcher Text bezieht sich auf was?

Der Text ...

Die Funktion des Textes ...

Die Bilder...

Der Text in den Bildern/OCR

Die Tabellen im Dokument

Die Daten der Diagramme im Dokument

Rekonstruktion von Tabellen

Metadata Extraction (Titel, Autor, Referenzen)

Day 2 Parsing

Day 2 Reliable RAG

Reliable RAG

GraphRAG

Grounding

Semantic Chunking

Faithfulness

Answer Relevance

Context Relevance

User Feedback

Self Critique

Reflection

Agentic RAG

Corrective RAG

Re-ranking

Scoring

Correctness

Daten für Reliable RAG

Reliable RAG

GraphRAG

Grounding

Semantic Chunking

Faithfulness

Answer Relevance

Context Relevance

User Feedback

Self Critique

Reflection

Agentic RAG

Corrective RAG

Re-ranking

Scoring

Backtesting

Chat-Simulation

Correctness

Text2SQL / GenBI

"Einfach Frage in normaler Sprache stellen"

Text2SQL

Prompt-Optimierung 

2024: Agent QA

  • Production Data für Back-Testing
     
  • Finale Response: stimmt das Ergebnis?
     
  • Trajectory: Wurden die richtigen Tools (in der richtigen Reihenfolge) eingesetzt?
     
  • Single-Step: Wird das richtige Tool für ein Problem ausgewählt?

2025: Metacognition

  • Agent Long Term Memory
     
  • Kontinuierliche und parallele Meta-Kritik und Meta-Revision
     
  • Aufbau von Strategiewissen
     
  • Selbstoptimierende & lernende Agenten

Mehr Datenquellen
Mehr Datenarten

Unstrukturiert Halb strukturiert Relational Agentic
Dokumente Metadaten CRM Prompt Logging
Document Summaries CSV, JSON, Scraped Data ERP RAG Logging
Bild/Audio/Video Produktdaten/PIM BI-Daten Agent Logging
Scans Conversations Order Management Meta-Cognition
Wikis etc Mails Knowledge Graphs

Orchestration

Batching

Inkrementelle Updates

Streaming

Deduplication

Change Data Capture

Parsing / OCR 

Splitting / Chunking

Embedding / GraphRAG

Authentifizierung

Monitoring / Alerting

DATA *

Orchestration

Batching

Inkrementelle Updates

Streaming

Deduplication

Change Data Capture

Parsing / OCR 

Splitting / Chunking

Embedding / GraphRAG

Authentifizierung

Monitoring / Alerting

DATA *

Data

Orchestration

Batching

Inkrementelle Updates

Streaming

Deduplication

Change Data Capture

Unstrukturiert Halb strukturiert Relational Agentic
Dokumente Metadaten CRM Prompt Logging
Document Summaries CSV, JSON, Scraped Data ERP RAG Logging
Bild/Audio/Video Produktdaten/PIM BI-Daten Agent Logging
Scans Conversations Order Management RLHF-Feedback
Wikis etc Mails Knowledge Graphs

Parsing / OCR 

Splitting / Chunking

Embedding / GraphRAG

Metacognition

Monitoring / Alerting

85%

Initialkosten--
Grenzkosten--
Realtime++
Verlässlichkeit++
Compliance & Datenschutz++

"Ich bräuchte da mal eine Data Platform, nur schneller, flexibler,
verlässlicher und billiger"

"Small Data Projects"

Initialkosten--
Grenzkosten--
Realtime++
Verlässlichkeit++
Compliance & Datenschutz++

Herzlichen Glückwunsch, Data.
Jedes hinreichend große KI-Projekt ist ein Data Projekt.
Auf beiden Planes. 

Data? AI Workloads!

By Johann-Peter Hartmann

Data? AI Workloads!

Im Agentic Age wird Nachholbedarf bei der Digitalisierung deutlich teurer, weil Automatisierung mittels KI nur dort stattfinden kann, wo Daten, Dokumente und Schnittstellen auch digital zur Verfügung stehen. Glücklicherweise unterstützt AI auch an dieser Stelle - die Integration Document Intelligence scheitert nicht mehr an OCR, sondern ist ein gelöstes Problem, und die Bereitstellung von AI-Schnittstellen über das Model Context Protocol erzeugt oft nur einen kleinen Aufwand. Und sogar die Verfügbarkeit von Daten über Datalakes, Data-Lakehouses bis zu Data Meshes ist nicht nur Voraussetzung für KI, sondern profitiert auch selbst von der neuen Technologie.

  • 139