Es una red neuronal artificial formada por múltiples capas, esto le permite resolver problemas que no son linealmente separables, lo cual es la principal limitación del perceptrón. El perceptrón multicapa puede ser totalmente o localmente conectado.
El primer algoritmo de aprendizaje para redes multicapa fue desarrollado por Paul Werbos en 1974, éste se desarrolló en un contexto general, para cualquier tipo de redes.
Fue hasta mediados de los años 80, cuando el algoritmo de retropropagación (conocido también como delta generalizada o propagación hacia atrás) fue redescubierto.