A(s) sentença(s) é(são) processada(s) de uma vez
Attention is all you need
A partir de um mesmo embedding geramos representações distintas para cada palavra: um key, uma query e um value
Utilizando diversas "cabeças" de atenção nós podemos capturar múltiplas relações
Também conhecidas como Skip-Connections
Após uma camada de auto-atenção no decoder, temos uma etapa de atenção entre o encoder e o decoder.
Os outputs do encoder são utilizados como Keys e Values enquanto os outputs da etapa de auto-atenção do decoder são usados como querys.
Mas como fazer para o decoder não "olhar o futuro" durante o treinamento?
Nós usamos Máscaras
Em amarelo temos as tokens visíveis para o decoder, em roxo temos a mascara.
Como todos tokens são processados de maneira independente, não há mais uma noção de sequencia ou ordem no nosso input.
Como remediar isso?
O paper "Attention is all you need" mudou drasticamente a área de NLP. Desde sua publicação diversos modelos surgiram inspirados pelo modelo transformer.
Um deles foi o transformer XL que se propoem a estender de maneira eficiente o contexto de um modelo transformer.
Usam pré-treinamento + refinamento: transfer learning
não-supervisionado supervisionado
Nas próximas aulas!