(aka Como Aprender a Jugar Pong y no Fracasar en el Intento)
Acciones:
Arriba, Abajo
Recompensas:
+1 cuando si la pelota rebasa al oponente
-1 si la pelota rebasa al agente
Episodio:
Si la pelota rebasa al agente o al oponente 21 veces, el episodio termina
https://gist.github.com/karpathy/a4166c7fe253700972fcbc77e4ea32c5
http://karpathy.github.io/2016/05/31/rl/
http://cs231n.github.io/neural-networks-2/#losses
Código fuente:
Explicación:
Nota sobre redes neuronales:
Capítulo 13 del libro (Second Edition 2017)
Sutton, R. S., Barto, A. G., Reinforcement Learning: An Introduction. MIT Press, 1998.