2. Learning

Fruit

flies

like

banana

Given	Find

(x_i, y_i)

\mathbf{w}

Learning

Fruit

flies

like

banana

Given	Find

(x_i, y_i)

\mathbf{w}

Learning

Fruit

flies

like

banana

Learning

\text{1. \textbf{Search} for the optimal }\hat{y}\text{ with parameters }\textbf{w}

Fruit

flies

like

banana

Learning

\text{1. \textbf{Search} for the optimal }\hat{y}\text{ with parameters }\textbf{w}

\text{2. \textbf{Update} the parameters }\textbf{w}\text{ based on }\hat{y}\text{ and }y

Fruit

flies

like

banana

Learning

\text{1. \textbf{Search} for the optimal }\hat{y}\text{ with parameters }\textbf{w}

\text{2. \textbf{Update} the parameters }\textbf{w}\text{ based on }\hat{y}\text{ and }y

\text{3. Return to 1 until satisfied}

Fruit

flies

like

banana

\text{a.}\;\;\hat{y_i} = \arg\max_y \mathbf{w}\cdot\mathbf{f}(x_i,y)

\text{b.}\;\;\mathbf{w}=\mathbf{w}-\big(\mathbf{f}(x_i,\hat{y_i})-\mathbf{f}(x_i,y_i)\big)

Structured Perceptron

Collins, M. (2002) Discriminative training methods for HMMs: Theory and experiments with perceptron algorithms.

\text{1. For }i = 1,2,\cdots,n

\text{2. Return to 1 until satisfied}

Fruit

flies

like

banana

(Sub-)Gradient Descent

\text{b.}\;\;\mathbf{w}=\mathbf{w}-\alpha(\mathbf{f}(x_i,\hat{y_i})-\mathbf{f}(x_i,y_i))

\text{a.}\;\;\hat{y_i} = \arg\max_y \mathbf{w}\cdot\mathbf{f}(x_i,y)

\text{b.}\;\;\mathbf{w}=\mathbf{w}-\big(\mathbf{f}(x_i,\hat{y_i})-\mathbf{f}(x_i,y_i)\big)

\text{1. For }i = 1,2,\cdots,n

\text{2. Return to 1 until satisfied}

\text{1. Sample }i\text{ from }\{1,2,\cdots,n\}

\text{a.}\;\;\hat{y_i} = \arg\max_y \mathbf{w}\cdot\mathbf{f}(x_i,y)

\text{2. Return to 1 until satisfied}

Fruit

flies

like

banana

Loss Function

\text{b.}\;\;\mathbf{w}=\mathbf{w}-\alpha(\mathbf{f}(x_i,\hat{y_i})-\mathbf{f}(x_i,y_i))

\text{a.}\;\;\hat{y_i} = \arg\max_y \mathbf{w}\cdot\mathbf{f}(x_i,y)

\text{b.}\;\;\mathbf{w}=\mathbf{w}-\big(\mathbf{f}(x_i,\hat{y_i})-\mathbf{f}(x_i,y_i)\big)

\text{1. For }i = 1,2,\cdots,n

\text{2. Return to 1 until satisfied}

\text{1. Sample }i\text{ from }\{1,2,\cdots,n\}

\text{a.}\;\;\hat{y_i} = \arg\max_y \mathbf{w}\cdot\mathbf{f}(x_i,y)

\text{2. Return to 1 until satisfied}

Fruit

flies

like

banana

Loss Function

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

Fruit

flies

like

banana

Loss Function

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

Fruit

flies

like

banana

Labeled Graph

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

Fruit

flies

like

banana

Loss Function

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

Fruit

flies

like

banana

Unlabeled Graph

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

Learning

\mathbf{w}^{(k)}

\max

\mathbf{w}^{(k+1)}

Structured Perceptron

Fruit

flies

like

banana

A Probabilistic View

\max_{\mathbf{w}}\sum_{i}\log p(y_{i}|x_{i})

Fruit

flies

like

banana

A Probabilistic View

\max_{\mathbf{w}}\sum_{i}\log\Big(\exp\big(\mathbf{w}\cdot\mathbf{f}({x_{i}},{y_{i}})\big)/\sum_{y'}\exp\big(\mathbf{w}\cdot\mathbf{f}({x_{i}},y')\big)\Big)

Fruit

flies

like

banana

Conditional Random Field

\log{\sum_{y}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}}

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\Big)

\Big(

\sum_i

Lafferty, J., McCallum, A., Pereira, F. C. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data.

\min_{\mathbf{w}}

Fruit

flies

like

banana

A Comparison

\log{\sum_{y}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}}

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\Big)

\Big(

\sum_i

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

A Comparison

\log{\sum_{y}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}}

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\Big)

\Big(

\sum_i

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\mathcal{Y}=\{1,3,4,8,18\}

\max_{y\in\mathcal{Y}}(y)=18

\log\sum_{y\in\mathcal{Y}}\exp(y)=18.0000465777..

A Comparison

\log{\sum_{y}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}}

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\Big)

\Big(

\sum_i

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

\max(a,b)

\log(\exp(a)+\exp(b))

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

Fruit

flies

like

banana

"Soft" Max

\log{\sum_{y}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}}

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\Big)

\Big(

\sum_i

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

Fruit

flies

like

banana

\log{\sum_{y}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}}

"Soft" Max

Fruit

flies

like

banana

Viterbi

\max_y\mathbf{w}\cdot\mathbf{f}(x,y) = \max_y\sum_j \mathbf{w}\cdot\mathbf{f}(x, [y^{j},y^{j+1}])

Fruit

flies

like

banana

Forward

\log\sum_y\exp\mathbf{w}\cdot\mathbf{f}(x,y) = \log\sum_y\exp\sum_j \mathbf{w}\cdot\mathbf{f}(x, [y^{j},y^{j+1}])

Fruit

flies

like

banana

Forward

3.6

-1.1

-9.0

2.7

0.5

\log\sum_y\exp\mathbf{w}\cdot\mathbf{f}(x,y) = \log\sum_y\exp\sum_j \mathbf{w}\cdot\mathbf{f}(x, [y^{j},y^{j+1}])

Fruit

flies

like

banana

4.4

5.1

1.5

3.7

Forward

0.4

\log\sum_y\exp\mathbf{w}\cdot\mathbf{f}(x,y) = \log\sum_y\exp\sum_j \mathbf{w}\cdot\mathbf{f}(x, [y^{j},y^{j+1}])

Fruit

flies

like

banana

-0.6

2.2

9.1

1.7

Forward

3.1

\log\sum_y\exp\mathbf{w}\cdot\mathbf{f}(x,y) = \log\sum_y\exp\sum_j \mathbf{w}\cdot\mathbf{f}(x, [y^{j},y^{j+1}])

Fruit

flies

like

banana

-1.2

0.6

2.8

0.3

Forward

0.1

\log\sum_y\exp\mathbf{w}\cdot\mathbf{f}(x,y) = \log\sum_y\exp\sum_j \mathbf{w}\cdot\mathbf{f}(x, [y^{j},y^{j+1}])

Fruit

flies

like

banana

1.4

2.6

-0.8

1.2

Forward

0.3

\log\sum_y\exp\mathbf{w}\cdot\mathbf{f}(x,y) = \log\sum_y\exp\sum_j \mathbf{w}\cdot\mathbf{f}(x, [y^{j},y^{j+1}])

Fruit

flies

like

banana

Forward

\log\sum_y\exp\mathbf{w}\cdot\mathbf{f}(x,y) = \log\sum_y\exp\sum_j \mathbf{w}\cdot\mathbf{f}(x, [y^{j},y^{j+1}])

8.9

Fruit

flies

like

banana

Gradient

\log{\sum_{y}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}}

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\Big)

\Big(

\sum_i

\min_{\mathbf{w}}

Fruit

flies

like

banana

Backward

\log{\sum_{y'}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x},{y}')\big)}}

\mathbb{E}_{p(y'|x)}[\mathbf{f}(x,y')]

Fruit

flies

like

banana

Backward

\mathbb{E}_{p(y'|x)}[\mathbf{f}(x,y')]

\log{\sum_{y'}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x},{y}')\big)}}

2.1

0.5

-1.8

0.2

Fruit

flies

like

banana

Backward

\mathbb{E}_{p(y'|x)}[\mathbf{f}(x,y')]

\log{\sum_{y'}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x},{y}')\big)}}

-1.2

0.6

2.8

0.3

0.1

Fruit

flies

like

banana

Backward

\mathbb{E}_{p(y'|x)}[\mathbf{f}(x,y')]

\log{\sum_{y'}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x},{y}')\big)}}

-0.2

2.6

1.8

1.3

0.1

Fruit

flies

like

banana

Backward

\mathbb{E}_{p(y'|x)}[\mathbf{f}(x,y')]

\log{\sum_{y'}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x},{y}')\big)}}

3.2

1.6

0.8

0.4

0.2

Fruit

flies

like

banana

Backward

\mathbb{E}_{p(y'|x)}[\mathbf{f}(x,y')]

\log{\sum_{y'}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x},{y}')\big)}}

2.2

1.6

2.8

3.3

1.1

Fruit

flies

like

banana

Backward

\mathbb{E}_{p(y'|x)}[\mathbf{f}(x,y')]

\log{\sum_{y'}\exp{\big(\mathbf{w}\cdot\mathbf{f}({x},{y}')\big)}}

8.9

Fruit

flies

like

banana

Forward-Backward

\left[ \begin{array}{c} {{0.5}}\\ 0.0\\ 0.1\\ 0.2\\ 0.2 \end{array} \right]

\left[ \begin{array}{c} 0.2\\ 0.2\\ 0.1\\ {{0.4}}\\ 0.1 \end{array} \right]

\left[ \begin{array}{c} {{0.7}}\\ 0.1\\ 0.1\\ 0.1\\ 0.0 \end{array} \right]

\left[ \begin{array}{c} 0.1\\ 0.1\\ {{0.4}}\\ 0.2\\ 0.2 \end{array} \right]

\left[ \begin{array}{c} 0.1\\ {{0.4}}\\ 0.0\\ 0.2\\ 0.3 \end{array} \right]

Fruit

flies

like

banana

Marginal Inference

\left[ \begin{array}{c} {{0.5}}\\ 0.0\\ 0.1\\ 0.2\\ 0.2 \end{array} \right]

\left[ \begin{array}{c} 0.1\\ 0.1\\ {{0.4}}\\ 0.2\\ 0.2 \end{array} \right]

\left[ \begin{array}{c} 0.1\\ {{0.4}}\\ 0.0\\ 0.2\\ 0.3 \end{array} \right]

\left[ \begin{array}{c} {{0.7}}\\ 0.1\\ 0.1\\ 0.1\\ 0.0 \end{array} \right]

\left[ \begin{array}{c} 0.2\\ 0.2\\ 0.1\\ {{0.4}}\\ 0.1 \end{array} \right]

Fruit

flies

like

banana

Marginal Decoding

\left[ \begin{array}{c} 0.1\\ {\color{red}{0.4}}\\ 0.0\\ 0.2\\ 0.3 \end{array} \right]

\left[ \begin{array}{c} 0.2\\ 0.2\\ 0.1\\ {\color{red}{0.4}}\\ 0.1 \end{array} \right]

\left[ \begin{array}{c} {\color{red}{0.7}}\\ 0.1\\ 0.1\\ 0.1\\ 0.0 \end{array} \right]

\left[ \begin{array}{c} 0.1\\ 0.1\\ {\color{red}{0.4}}\\ 0.2\\ 0.2 \end{array} \right]

\left[ \begin{array}{c} {\color{red}{0.5}}\\ 0.0\\ 0.1\\ 0.2\\ 0.2 \end{array} \right]

Learning

\mathbf{w}^{(k)}

\mathbf{w}^{(k+1)}

CRF

\log\sum\exp

Margin

Fruit

flies

like

banana

Structured Perceptron

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

Fruit

flies

like

banana

Max-Margin

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\Big)

\Big(

\sum_i

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

\max_y{\big(\color{brown}{\Delta(y_i,y)}+\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

Fruit

flies

like

banana

Max-Margin

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\Big)

\Big(

\sum_i

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

\max_y{\big(\color{brown}{\Delta(y_i,y)}+\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\color{brown}{\Delta(\textbf{D},\textbf{P})=1, \Delta(\textbf{N},\textbf{N})=0, \Delta(\textbf{N},\textbf{V})=10}

Fruit

flies

like

banana

Decode with Oracle

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\Big)

\Big(

\sum_i

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\max_y{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

\max_y{\big(\color{brown}{\Delta(y_i,y)}+\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\color{brown}{\Delta(\mathbf{D},\mathbf{P})=1, \Delta(\mathbf{N},\mathbf{N})=0, \Delta(\mathbf{N},\mathbf{V})=10}

Fruit

flies

like

banana

Structural SVM

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\Big)

\Big(

\sum_i

\min_{\mathbf{w}}

\max_y{\big({\Delta(y_i,y)}+\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

Tsochantaridis, I., Joachims, T., Hofmann, T., & Altun, Y. (2005). Large margin methods for structured and interdependent output variables.

Fruit

flies

like

banana

"Soft"Max-Margin

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\Big)

\Big(

\sum_i

\mathbf{w}\cdot\mathbf{f}({x}_i,{y}_i)

\log\sum_y\exp{\big(\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

\sum_i\Big(

\Big)

\min_{\mathbf{w}}

\log\sum_y\exp{\big(\color{brown}{\Delta(y_i,y)}+\mathbf{w}\cdot\mathbf{f}({x}_i,{y})\big)}

Gimpel, K., & Smith, N. A. (2010). Softmax-margin CRFs: Training log-linear models with cost functions. In NAACL-HLT.

Learning

\mathbf{w}^{(k)}

\max

\mathbf{w}^{(k+1)}

Structured Perceptron, Structural SVM

\Delta(y,y')

Learning

\mathbf{w}^{(k)}

\mathbf{w}^{(k+1)}

CRF, "Soft"Max-Margin CRF

\Delta(y,y')

\log\sum\exp

So Far

Decoding

Finding the optimal y for a given x and the given parameter w

Learning

Finding the optimal w with training examples

Next...

Variants of structured prediction models