Warum
KI nicht ohne
Data geht

Warum machen wir
KI und Data?

Und nicht Dev im Schwerpunkt, wie bisher?

KI kann viele Dinge sehr gut
Aber KI kann nicht alle Dinge
Aber es bewegt sich
Mein KI-Hebel wird kontinuierlich größer.

"You can see the computer age everywhere but in the productivity statistics."

Es ist nicht selbstverständlich, dass
man die Produktivätssteigerungen anwenden kann.

Jensen Huang, 2017:
"a Cambrian explosion of autonomous machines"
Mehr AI -> Mehr AI

Wenn etwas billiger und effizienter wird, wird mehr gebraucht
Weil Software mit KI so viel schneller und billiger wird, entsteht viel mehr Software

Softwareentwicklung
und Kompetenz wird weiter gebraucht.
Aber anders.

Dafür wollen wir uns aufstellen.

Text

Betrieb von Agenten

Zugriff auf APIs

MCP ist ein offenes Protokoll
Standardisiert, wie Anwendungen Kontext für LLMs bereitstellen
Vergleichbar mit einem USB-C-Anschluss für KI-Anwendungen
Bietet standardisierte Verbindungen für:
- KI-Modelle
- Verschiedene Datenquellen
- Tools und Systeme

Model Context Protocol

TL;DR:
- Basierend auf JSON-RPC 2.0
- Analog zu LSP/LSIF standartisiert MCP wie zusätzliche Kontexte, Daten, und Tools in die Systemlandschaften von KI-Anwendungen integriert werden

https://spec.modelcontextprotocol.io/specification/2024-11-05/

Tools: Check.

Daten

Informationen

Wissen

Day 1 RAG "mal gucken"

Ingest-Job in Python oder Tool
On Demand gestartet
Naive Transformation, Splitting, Embedding

Day 2 "Geld verdienen"

Alle relevanten Daten

Unstrukturierte Daten:

PDF / Doc / XLS / ODF / Scans / Bilder / Mails
URLs / HTML / JSON/ Scraping / Applications

Strukturierte Daten:

Relationale Daten, Graph-Datenbanken, ......

Der Text ...

Die Funktion des Textes ...

Die Bilder...

Der Text in den Bildern/OCR

Die Tabellen im Dokument

Die Daten der Diagramme im Dokument

Rekonstruktion von Tabellen

Metadata Extraction (Titel, Autor, Referenzen)

Day 2 Parsing

Layout /
Diagram

Understanding

Docling

PDF, DOCX, XLSX, HTML, images, ...
Layout understanding
Chart understanding (Barchart, Piechart, LinePlot, etc)
Plugin-Infrastruktur für
- OCR
- Vision Models
Eigenes SmolDocling-VLM
Metadata extraction, including title, authors, references & language
Table reconstruction

This is a bar chart, which shows the percentage of people in Germany who voted for the populist party in the 2020 and 2024 elections. The x-axis shows the years, while the y-axis shows the percentage of people who voted for the populist party. The bar chart is titled "Durchschmitteln 2020-2024."
The image is a bar chart titled "Median." The chart is divided into three horizontal rows, each representing a month. The x-axis represents the month, while the y-axis represents the values of the data points. The data points are color-coded to represent different values:

Day 2 Reliable RAG

Reliable RAG

GraphRAG

Grounding

Semantic Chunking

Faithfulness

Answer Relevance

Context Relevance

User Feedback

Self Critique

Reflection

Agentic RAG

Corrective RAG

Re-ranking

Scoring

Correctness

Daten für Reliable RAG

Reliable RAG

GraphRAG

Grounding

Semantic Chunking

Faithfulness

Answer Relevance

Context Relevance

User Feedback

Self Critique

Reflection

Agentic RAG

Corrective RAG

Re-ranking

Scoring

Backtesting

Chat-Simulation

Correctness

Day 2 Reliable RAG

Day 2 AgentOps

Production Data für Back-Testing
Finale Response: stimmt das Ergebnis?
Trajectory: Wurden die richtigen Tools (in der richtigen Reihenfolge) eingesetzt?
Single-Step: Wird das richtige Tool für ein Problem ausgewählt?

Mehr Datenquellen
Mehr Datenarten

Unstrukturiert	Halb strukturiert	Relational	Agentic
Dokumente	Metadaten	CRM	Prompt Logging
Document Summaries	CSV, JSON, Scraped Data	ERP	RAG Logging
Bild/Audio/Video	Produktdaten/PIM	BI-Daten	Agent Logging
Scans	Conversations	Order Management	RLHF-Feedback
Wikis etc	Mails		Knowledge Graphs

Orchestration

Batching

Inkrementelle Updates

Streaming

Deduplication

Change Data Capture

Parsing / OCR

Splitting / Chunking

Embedding / GraphRAG

Authentifizierung

Monitoring / Alerting

DATA *

Orchestration

Batching

Inkrementelle Updates

Streaming

Deduplication

Change Data Capture

Parsing / OCR

Splitting / Chunking

Embedding / GraphRAG

Authentifizierung

Monitoring / Alerting

DATA *

Initialkosten--
Grenzkosten--
Realtime++
Verlässlichkeit++
Compliance & Datenschutz++

"Ich bräuchte da mal eine Data Platform, nur schneller, flexibler,
verlässlicher und billiger"

"Small Data Projects"

Initialkosten--
Grenzkosten--
Realtime++
Verlässlichkeit++
Compliance & Datenschutz++

85%

Orchestration

Batching

Inkrementelle Updates

Streaming

Deduplication

Change Data Capture

Unstrukturiert	Halb strukturiert	Relational	Agentic
Dokumente	Metadaten	CRM	Prompt Logging
Document Summaries	CSV, JSON, Scraped Data	ERP	RAG Logging
Bild/Audio/Video	Produktdaten/PIM	BI-Daten	Agent Logging
Scans	Conversations	Order Management	RLHF-Feedback
Wikis etc	Mails		Knowledge Graphs

Parsing / OCR

Splitting / Chunking

Embedding / GraphRAG

Authentifizierung

Monitoring / Alerting

Architekturübersicht MCP

MCP Konkretisiert

Vereinfachte Integration verschiedener Modelle
Standardisierte Tool-Nutzung über verschiedene Modelle und Systeme hinweg
Verbesserte Kontextualisierung und Nachvollziehbarkeit
- Integration in Telemetrie und Alerting Infrastrukturen
Reduzierte Entwicklungszeit für neue Agenten

MCP Beispiel

// Beispiel eines einfachen MCP-Servers in TypeScript
import { Server } from '@modelcontextprotocol/sdk/server';
import { StdioServerTransport } from '@modelcontextprotocol/sdk/server/stdio';

const server = new Server(
  {
    name: 'example-server',
    version: '0.1.0',
  },
  {
    capabilities: {
      resources: {},
      tools: {},
    },
  }
);

// Tool-Definition
server.setRequestHandler(ListToolsRequestSchema, async () => ({
  tools: [
    {
      name: 'get_weather',
      description: 'Get weather forecast for a city',
      inputSchema: {
        type: 'object',
        properties: {
          city: { type: 'string' },
          days: { type: 'number' },
        },
        required: ['city'],
      },
    },
  ],
}));

Meine IDE als Agent

APIs Data Documents

By Johann-Peter Hartmann

APIs Data Documents

Im Agentic Age wird Nachholbedarf bei der Digitalisierung deutlich teurer, weil Automatisierung mittels KI nur dort stattfinden kann, wo Daten, Dokumente und Schnittstellen auch digital zur Verfügung stehen. Glücklicherweise unterstützt AI auch an dieser Stelle - die Integration Document Intelligence scheitert nicht mehr an OCR, sondern ist ein gelöstes Problem, und die Bereitstellung von AI-Schnittstellen über das Model Context Protocol erzeugt oft nur einen kleinen Aufwand. Und sogar die Verfügbarkeit von Daten über Datalakes, Data-Lakehouses bis zu Data Meshes ist nicht nur Voraussetzung für KI, sondern profitiert auch selbst von der neuen Technologie.

Warum KI nicht ohne Data geht

Warum machen wir KI und Data? Und nicht Dev im Schwerpunkt, wie bisher?

KI kann viele Dinge sehr gut

Aber KI kann nicht alle Dinge

Aber es bewegt sich

Mein KI-Hebel wird kontinuierlich größer.

"You can see the computer age everywhere but in the productivity statistics."

Es ist nicht selbstverständlich, dass man die Produktivätssteigerungen anwenden kann.

Jensen Huang, 2017: "a Cambrian explosion of autonomous machines"

Mehr AI -> Mehr AI

Wenn etwas billiger und effizienter wird, wird mehr gebraucht

Weil Software mit KI so viel schneller und billiger wird, entsteht viel mehr Software

Softwareentwicklung und Kompetenz wird weiter gebraucht. Aber anders. Dafür wollen wir uns aufstellen.

Betrieb von Agenten

Zugriff auf APIs

Model Context Protocol

Tools: Check.

Daten Informationen Wissen

Day 1 RAG "mal gucken"

Day 2 "Geld verdienen"

Alle relevanten Daten

Day 2 Parsing

Layout / Diagram

Understanding

Docling

Day 2 Reliable RAG

Daten für Reliable RAG

Day 2 Reliable RAG

Day 2 AgentOps

Mehr Datenquellen Mehr Datenarten

DATA *

DATA *

"Ich bräuchte da mal eine Data Platform, nur schneller, flexibler, verlässlicher und billiger"

"Small Data Projects"

85%

Architekturübersicht MCP

MCP Konkretisiert

MCP Beispiel

Meine IDE als Agent

APIs Data Documents

More from Johann-Peter Hartmann

Warum
KI nicht ohne
Data geht

Warum machen wir
KI und Data?

Und nicht Dev im Schwerpunkt, wie bisher?

Es ist nicht selbstverständlich, dass
man die Produktivätssteigerungen anwenden kann.

Jensen Huang, 2017:
"a Cambrian explosion of autonomous machines"

Softwareentwicklung
und Kompetenz wird weiter gebraucht.
Aber anders.

Dafür wollen wir uns aufstellen.

Daten

Informationen

Wissen

Layout /
Diagram

Mehr Datenquellen
Mehr Datenarten

"Ich bräuchte da mal eine Data Platform, nur schneller, flexibler,
verlässlicher und billiger"