Debug Machine learning embedded SQL

ML-Embedded SQL

How many cats in the picture?

A	B	C
a	b	c
d	b	e

ML-Embedded SQL

$D$ : Database, $D_T$ : Database trains the models

$Q$ : Query

$M_1,...,M_k$ : Models

$E$ : User expectation of $Q(D)$

Goal: find tuples $T \subset D_T$ causes $Q(D) \neq E$

ML-Embedded SQL

Be smarter? Optimization!

\begin{aligned} && \min_{T}\ & |T| \\ s.t. && \ & Q(D, D_T-T) = E \\ && \ & M_1 = \arg \min \ell_1(\cdot) \\ && \ & \vdots \\ && \ & M_k = \arg \min \ell_k(\cdot) \\ \end{aligned}

\begin{aligned} && \min_{T}\ & |T| \\ s.t. && \ & Q(D, D_T-T) = E \\ && \ & M_1 = \arg \min \ell_1(\cdot) \\ && \ & \vdots \\ && \ & M_k = \arg \min \ell_k(\cdot) \\ \end{aligned}

Objective: Find a $T$ , if multiple solutions exist, we want the one with minimal $|T|$

Constraints:

1. The query result is correct $Q(D, D_T-T)=E$

2. The model should be well trained.

ML-Embedded SQL

Difficulties:

1. Encoding SQL logic into an analytical form

2. Efficiently solve the problem

\begin{aligned} && \min_{T}\ & |T| \\ s.t. && \ & Q(D, D_T-T) = E \\ && \ & M_1 = \arg \min \ell_1(\cdot) \\ && \ & \vdots \\ && \ & M_k = \arg \min \ell_k(\cdot) \\ \end{aligned}

\begin{aligned} && \min_{T}\ & |T| \\ s.t. && \ & Q(D, D_T-T) = E \\ && \ & M_1 = \arg \min \ell_1(\cdot) \\ && \ & \vdots \\ && \ & M_k = \arg \min \ell_k(\cdot) \\ \end{aligned}

Provenance Semirings

$Q(D,D_T-T)$ is not analytical representable!

\begin{aligned} && \min_{T}\ & |T| \\ s.t. && \ & \textcolor{red}{Q(D, D_T-T) = E} \\ && \ & M_1 = \arg \min \ell_1(\cdot) \\ && \ & \vdots \\ && \ & M_k = \arg \min \ell_k(\cdot) \\ \end{aligned}

\begin{aligned} && \min_{T}\ & |T| \\ s.t. && \ & \textcolor{red}{Q(D, D_T-T) = E} \\ && \ & M_1 = \arg \min \ell_1(\cdot) \\ && \ & \vdots \\ && \ & M_k = \arg \min \ell_k(\cdot) \\ \end{aligned}

A	B	C
a	b	c
d	b	e
f	g	e

A	B	C
a	b	c
d	b	e

A	B	C	I
a	b	c	1
d	b	e	1
f	g	e	1

A	B	C	I
a	b	c	1
d	b	e	1
f	g	e	0

A	B	C	I
a	b	c	1
d	b	e	1
f	g	e	1

A	B	C	I
a	b	c	1
d	b	e	1
f	g	e	1

A	B	C	I
a	b	c	1

A	B	C	I
a	b	c	1
d	b	e	1
f	g	e	1

A	B	C	I
a	b	c	1
d	b	e	0
f	g	e	0

A	B	C	I
a	b	c	1

A	B	C	I
a	b	c	1
d	b	e	1
f	g	e	1

B	V	I
b	2	1
g	1	1

Debug Machine learning embedded SQL

By Weiyüen Wu

Debug Machine learning embedded SQL

6 years ago
666

Weiyüen Wu

wooya.me