Perceptron Probabilístico
Marcelo Finger Alan Barzilay

Problemas com Perceptron Clássico
- Separabilidade: se dados não são linearmente separáveis o algoritmo não converge
- Margens pequenas: O hiperplano gerado pode ter uma margem baixa o que leva a uma baixa generalização
- Nenhuma medida de confiança
Perceptron Probabilístico
(Regressão Logística)

Intuição: Quanto mais longe do hiper plano, maior a confiança na classificação
Perceptron Probabilístico
\Pr( Y=1|x) =0.5
\Pr( Y=1|x) \approx 0
\Pr( Y=1|x) \approx 1
x \cdotp w
Perceptron Probabilístico
\Pr( Y=1|x) =0.5
\Pr( Y=1|x) \approx 0
\Pr( Y=1|x) \approx 1
x \cdotp w
\Pr( Y=y|x) =\frac{1}{1+\ \exp( -y\cdotp w\cdotp x)}
\Pr( Y=1|x)
Dados não linearmente separaveis
XOR

Perceptron Clássico e incapaz de aprender a função booleana XOR
Mas e com 2 hiper-planos?
Perceptron Multicamada
Hornik 1989: Perceptrons multicamada com funções de ativação podem aproximar arbitrariamente bem qualquer função continua
Combinando diferentes perceptrons podemos construir uma rede que resulta em um modelo fundamentalmente mais poderoso
Uma combinação linear de modelos lineares resultará em um modelo linear.
Como introduzir não linearidade?
Funções de ativação
- Sigmoide
Sigmoide
\sigma(x) = \frac{1}{1+e^{-x}}
Funções de ativação
- Sigmoide
- Tanh
Tanh
tanh(x) = \frac{e^x - e^{-x}}{e^x +e^{-x}}
Funções de ativação
- Sigmoide
- Tanh
- ReLU
ReLU
max(0,x)
Funções de ativação
- Sigmoide
- Tanh
- ReLU
- Leaky ReLU
Leaky ReLU
\begin{cases}
0.01x & se\ x \leq 0\\
x & se\ x > 0
\end{cases}
Titulo Proxima Aula
Proxima aula!
2.2 perceptron probabilistico
By barzilay
2.2 perceptron probabilistico
- 109

