Warum
KI nicht ohne
Data geht

Warum machen wir
KI und Data?
Und nicht Dev im Schwerpunkt, wie bisher?




-
KI kann viele Dinge sehr gut
-
Aber KI kann nicht alle Dinge
-
Aber es bewegt sich
-
Mein KI-Hebel wird kontinuierlich größer.
"You can see the computer age everywhere but in the productivity statistics."

Es ist nicht selbstverständlich, dass
man die Produktivätssteigerungen anwenden kann.

-
Jensen Huang, 2017:
"a Cambrian explosion of autonomous machines"
-
Mehr AI -> Mehr AI




-
Wenn etwas billiger und effizienter wird, wird mehr gebraucht
-
Weil Software mit KI so viel schneller und billiger wird, entsteht viel mehr Software
Softwareentwicklung
und Kompetenz wird weiter gebraucht.
Aber anders.
Dafür wollen wir uns aufstellen.



Text
Betrieb von Agenten

Zugriff auf APIs
- MCP ist ein offenes Protokoll
- Standardisiert, wie Anwendungen Kontext für LLMs bereitstellen
- Vergleichbar mit einem USB-C-Anschluss für KI-Anwendungen
- Bietet standardisierte Verbindungen für:
- KI-Modelle
- Verschiedene Datenquellen
- Tools und Systeme
Model Context Protocol
- TL;DR:
- Basierend auf JSON-RPC 2.0
- Analog zu LSP/LSIF standartisiert MCP wie zusätzliche Kontexte, Daten, und Tools in die Systemlandschaften von KI-Anwendungen integriert werden
https://spec.modelcontextprotocol.io/specification/2024-11-05/
Tools: Check.
Daten
Informationen
Wissen

Day 1 RAG "mal gucken"
- Ingest-Job in Python oder Tool
- On Demand gestartet
- Naive Transformation, Splitting, Embedding

Day 2 "Geld verdienen"


Alle relevanten Daten
Unstrukturierte Daten:
- PDF / Doc / XLS / ODF / Scans / Bilder / Mails
- URLs / HTML / JSON/ Scraping / Applications
Strukturierte Daten:
- Relationale Daten, Graph-Datenbanken, ......

Der Text ...
Die Funktion des Textes ...
Die Bilder...
Der Text in den Bildern/OCR
Die Tabellen im Dokument
Die Daten der Diagramme im Dokument
Rekonstruktion von Tabellen
Metadata Extraction (Titel, Autor, Referenzen)
Day 2 Parsing
Layout /
Diagram
Understanding


Docling
- PDF, DOCX, XLSX, HTML, images, ...
- Layout understanding
- Chart understanding (Barchart, Piechart, LinePlot, etc)
-
Plugin-Infrastruktur für
- OCR
- Vision Models
- Eigenes SmolDocling-VLM
- Metadata extraction, including title, authors, references & language
- Table reconstruction
This is a bar chart, which shows the percentage of people in Germany who voted for the populist party in the 2020 and 2024 elections. The x-axis shows the years, while the y-axis shows the percentage of people who voted for the populist party. The bar chart is titled "Durchschmitteln 2020-2024."
The image is a bar chart titled "Median." The chart is divided into three horizontal rows, each representing a month. The x-axis represents the month, while the y-axis represents the values of the data points. The data points are color-coded to represent different values:
Day 2 Reliable RAG

Reliable RAG
GraphRAG
Grounding
Semantic Chunking
Faithfulness
Answer Relevance
Context Relevance
User Feedback
Self Critique
Reflection
Agentic RAG
Corrective RAG
Re-ranking
Scoring
Correctness
Daten für Reliable RAG
Reliable RAG
GraphRAG
Grounding
Semantic Chunking
Faithfulness
Answer Relevance
Context Relevance
User Feedback
Self Critique
Reflection
Agentic RAG
Corrective RAG
Re-ranking
Scoring

Backtesting
Chat-Simulation
Correctness
Day 2 Reliable RAG


Day 2 AgentOps

- Production Data für Back-Testing
- Finale Response: stimmt das Ergebnis?
- Trajectory: Wurden die richtigen Tools (in der richtigen Reihenfolge) eingesetzt?
- Single-Step: Wird das richtige Tool für ein Problem ausgewählt?
Mehr Datenquellen
Mehr Datenarten
Unstrukturiert | Halb strukturiert | Relational | Agentic |
---|---|---|---|
Dokumente | Metadaten | CRM | Prompt Logging |
Document Summaries | CSV, JSON, Scraped Data | ERP | RAG Logging |
Bild/Audio/Video | Produktdaten/PIM | BI-Daten | Agent Logging |
Scans | Conversations | Order Management | RLHF-Feedback |
Wikis etc | Mails | Knowledge Graphs |

Orchestration
Batching
Inkrementelle Updates
Streaming
Deduplication
Change Data Capture
Parsing / OCR
Splitting / Chunking
Embedding / GraphRAG
Authentifizierung
Monitoring / Alerting
DATA *


Orchestration
Batching
Inkrementelle Updates
Streaming
Deduplication
Change Data Capture
Parsing / OCR
Splitting / Chunking
Embedding / GraphRAG
Authentifizierung
Monitoring / Alerting
DATA *
Initialkosten--
Grenzkosten--
Realtime++
Verlässlichkeit++
Compliance & Datenschutz++
"Ich bräuchte da mal eine Data Platform, nur schneller, flexibler,
verlässlicher und billiger"
"Small Data Projects"
Initialkosten--
Grenzkosten--
Realtime++
Verlässlichkeit++
Compliance & Datenschutz++
85%







Orchestration
Batching
Inkrementelle Updates
Streaming
Deduplication
Change Data Capture
Unstrukturiert | Halb strukturiert | Relational | Agentic |
---|---|---|---|
Dokumente | Metadaten | CRM | Prompt Logging |
Document Summaries | CSV, JSON, Scraped Data | ERP | RAG Logging |
Bild/Audio/Video | Produktdaten/PIM | BI-Daten | Agent Logging |
Scans | Conversations | Order Management | RLHF-Feedback |
Wikis etc | Mails | Knowledge Graphs |
Parsing / OCR
Splitting / Chunking
Embedding / GraphRAG
Authentifizierung
Monitoring / Alerting


Architekturübersicht MCP

MCP Konkretisiert
-
Vereinfachte Integration verschiedener Modelle
-
Standardisierte Tool-Nutzung über verschiedene Modelle und Systeme hinweg
-
Verbesserte Kontextualisierung und Nachvollziehbarkeit
-
Integration in Telemetrie und Alerting Infrastrukturen
-
-
Reduzierte Entwicklungszeit für neue Agenten

MCP Beispiel
// Beispiel eines einfachen MCP-Servers in TypeScript
import { Server } from '@modelcontextprotocol/sdk/server';
import { StdioServerTransport } from '@modelcontextprotocol/sdk/server/stdio';
const server = new Server(
{
name: 'example-server',
version: '0.1.0',
},
{
capabilities: {
resources: {},
tools: {},
},
}
);
// Tool-Definition
server.setRequestHandler(ListToolsRequestSchema, async () => ({
tools: [
{
name: 'get_weather',
description: 'Get weather forecast for a city',
inputSchema: {
type: 'object',
properties: {
city: { type: 'string' },
days: { type: 'number' },
},
required: ['city'],
},
},
],
}));
Meine IDE als Agent
APIs Data Documents
By Johann-Peter Hartmann
APIs Data Documents
Im Agentic Age wird Nachholbedarf bei der Digitalisierung deutlich teurer, weil Automatisierung mittels KI nur dort stattfinden kann, wo Daten, Dokumente und Schnittstellen auch digital zur Verfügung stehen. Glücklicherweise unterstützt AI auch an dieser Stelle - die Integration Document Intelligence scheitert nicht mehr an OCR, sondern ist ein gelöstes Problem, und die Bereitstellung von AI-Schnittstellen über das Model Context Protocol erzeugt oft nur einen kleinen Aufwand. Und sogar die Verfügbarkeit von Daten über Datalakes, Data-Lakehouses bis zu Data Meshes ist nicht nur Voraussetzung für KI, sondern profitiert auch selbst von der neuen Technologie.
- 163