Marcelo Finger Alan Barzilay
Intuição: Quanto mais longe do hiper plano, maior a confiança na classificação
Perceptron Clássico e incapaz de aprender a função booleana XOR
Mas e com 2 hiper-planos?
Hornik 1989: Perceptrons multicamada com funções de ativação podem aproximar arbitrariamente bem qualquer função continua
Combinando diferentes perceptrons podemos construir uma rede que resulta em um modelo fundamentalmente mais poderoso
Uma combinação linear de modelos lineares resultará em um modelo linear.
Como introduzir não linearidade?