Intro to Machine Learning

https://introml.mit.edu/

Lecture 9: Non-parametric Models

Shen Shen

April 12, 2024

(many slides adapted from Tamara Broderick)

input $I$ : set of indices
$k$ : hyper-parameter, maximum leaf "size", i.e. how many training data ended in that leaf node.
$\hat y$ : (intermediate) prediction

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$j$ : split dimension
$s$ : split value

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

Choose $k=2$
$\operatorname{BuildTree}(\{1,2,3\};2)$
Line 1 true
Consider a fixed $(j, s)$
- $I_{j, s}^{+} = \{2,3\}$
- $I_{j, s}^{-} = \{1\}$
- $\hat{y}_{j, s}^{+} = 5$
- $\hat{y}_{j, s}^{-} = 0$
- $E_{j, s} =0$

{x}^{(1)}

{x}^{(1)}

{x}^{(3)}

{x}^{(3)}

{x}^{(2)}

{x}^{(2)}

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

Choose $k=2$
$\operatorname{BuildTree}(\{1,2,3\};2)$
Line 1 true
Consider a fixed $(j, s)$
- $I_{j, s}^{+} = \{2,3\}$
- $I_{j, s}^{-} = \{1\}$
- $\hat{y}_{j, s}^{+} = 5$
- $\hat{y}_{j, s}^{-} = 0$
- $E_{j, s} =0$

{x}^{(1)}

{x}^{(1)}

{x}^{(3)}

{x}^{(3)}

{x}^{(2)}

{x}^{(2)}

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

So for line 2: a finite number of $(j, s)$ combo suffices (those splits in-between data points)
Line 8 picks the "best" among these finite combos. (random tie-breaking)

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

Suppose line 8 sets this $(j^*,s^*) = (1, 1.7)$

{x}^{(1)}

{x}^{(1)}

{x}^{(3)}

{x}^{(3)}

{x}^{(2)}

{x}^{(2)}

\operatorname{BuildTree}\left(\{1\}; 2\right)

\operatorname{BuildTree}\left(\{1\}; 2\right)

\operatorname{BuildTree}\left(\{2,3\}; 2\right)

\operatorname{BuildTree}\left(\{2,3\}; 2\right)

then 12 recursion

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

Line 8 sets this $(j^*,s^*)$

{x}^{(1)}

{x}^{(1)}

{x}^{(3)}

{x}^{(3)}

{x}^{(2)}

{x}^{(2)}

\operatorname{BuildTree}\left(\{1\}; 2\right)

\operatorname{BuildTree}\left(\{1\}; 2\right)

\operatorname{BuildTree}\left(\{2,3\}; 2\right)

\operatorname{BuildTree}\left(\{2,3\}; 2\right)

Line 12 recursion

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

Line 8 sets this $(j^*,s^*)$

{x}^{(1)}

{x}^{(1)}

{x}^{(3)}

{x}^{(3)}

{x}^{(2)}

{x}^{(2)}

\operatorname{BuildTree}\left(\{2,3\}; 2\right)

\operatorname{BuildTree}\left(\{2,3\}; 2\right)

Line 12 recursion

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

Line 8 sets this $(j^*,s^*)$

{x}^{(1)}

{x}^{(1)}

{x}^{(3)}

{x}^{(3)}

{x}^{(2)}

{x}^{(2)}

\operatorname{BuildTree}\left(\{2,3\}; 2\right)

\operatorname{BuildTree}\left(\{2,3\}; 2\right)

Line 12 recursion

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

Line 8 sets this $(j^*,s^*)$

{x}^{(1)}

{x}^{(1)}

{x}^{(3)}

{x}^{(3)}

{x}^{(2)}

{x}^{(2)}

Line 12 recursion

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set. $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set. $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set. $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set. $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set. $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set. $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set. $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set. $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set. $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set. $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set. $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ average $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ average $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s}=\sum_{i \in I_{j, s}^{+}}\left(y^{(i)}-\hat{y}_{j, s}^{+}\right)^2+\sum_{i \in I_{j, s}^{-}}\left(y^{(i)}-\hat{y}_{j, s}^{-}\right)^2$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ average $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}, k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}, k\right)\right)$

$\operatorname{BuildTree}(I;k)$

if $|I| > k$
for each split dim $j$ and split value $s$
Set $I_{j, s}^{+}=\left\{i \in I \mid x_j^{(i)} \geq s\right\}$
Set $I_{j, s}^{-}=\left\{i \in I \mid x_j^{(i)}<s\right\}$
Set $\hat{y}_{j, s}^{+}=$ majority $_{i \in I_{j, s}^{+}} y^{(i)}$
Set $\hat{y}_{j, s}^{-}=$ majority $_{i \in I_{j, s}^{-}} y^{(i)}$
Set $E_{j, s} = \frac{\left|I_{j, s}^{-}\right|}{|I|} \cdot H\left(I_{j, s}^{-}\right)+\frac{\left|I_{j, s}^{+}\right|}{|I|} \cdot H\left(I_{j, s}^{+}\right)$
Set $\left(j^*, s^*\right)=\arg \min _{j, s} E_{j, s}$
else
Set $\hat{y}=$ majority $_{i \in I} y^{(i)}$
return $\operatorname{LEAF}$ (leave_value= $\hat{y})$
return $\operatorname{Node}\left(j^*, s^*, \operatorname{BuildTree}\left(I_{j^*, s^*}^{-}; k\right), \operatorname{BuildTree}\left(I_{j^*, s^*}^{+}; k\right)\right)$

The only change from regression to classification:

Line 5, 6, 10, average becomes majority vote
Line 7 error more involved

$E_{j, s} = \frac{\left|I_{j, s}^{-}\right|}{|I|} \cdot H\left(I_{j, s}^{-}\right)+\frac{\left|I_{j, s}^{+}\right|}{|I|} \cdot H\left(I_{j, s}^{+}\right)$

${I}$ = 9, $\left|I_{j, s}^{-}\right|$ = 6, $\left|I_{j, s}^{+}\right|$ = 3
So, $E_{j, s} = \frac{6}{9} H\left(I_{j, s}^{-}\right) +\frac{3}{9} H\left(I_{j, s}^{-}\right)$

$H\left(I_{j, s}^{-}\right) = -[\frac{3}{6} \log _2\left(\frac{3}{6}\right)+\frac{2}{6} \log _2\left(\frac{2}{6}\right)+\frac{1}{6} \log _2\left(\frac{1}{6}\right)]$

$H\left(I_{j, s}^{+}\right) = -[\frac{1}{3} \log \left(\frac{1}{3}\right)+\frac{0}{3} \log _2\left(\frac{0}{3}\right)+\frac{2}{3} \log _2\left(\frac{2}{3}\right)]$

$H=-\sum_{\text {class }_c} \hat{P}_c (\log _2 \hat{P}_c)$

Intro to Machine Learning https://introml.mit.edu/ Lecture 9: Non-parametric Models Shen Shen April 12, 2024 (many slides adapted from Tamara Broderick )

introml-sp24-lec9

By Shen Shen

introml-sp24-lec9

11 months ago
127

Shen Shen

shenshen.mit.edu

Intro to Machine Learning

Lecture 9: Non-parametric Models

Outline

Outline

Outline

Non-parametric models

Outline

Outline

Nearest neighbor classifier

Thanks!

introml-sp24-lec9

introml-sp24-lec9

Shen Shen

Intro to Machine Learning

Lecture 9: Non-parametric Models

introml-sp24-lec9

More from Shen Shen