Sistema de Recomendación

 Reinforcement learning

 Reinforcement learning

 Reinforcement learning

RS

RS

US

US

APP

APP

User

Application

Recommendation system

 Reinforcement learning (RF)

RF usa el framework matemático de las procesos de decisión de Markov

 Reinforcement learning (RF)

Proceso de decisión de Markov
  • \(\mathcal{S}\) es un conjunto de estados finitos
  • \(\mathcal{A}\) es un conjunto de acctiones finitas
  • \(\mathbb{P}(s_{t+1}|s_{t},a_{t}) \) es una distribución de probabilidad
  • \( r(s_t,a_t) \) es una función de recompensa

 Reinforcement learning (RF)

Proceso de decisión de Markov

Sea el conjunto de colas \(\mathcal{Q} = \{Q_0,Q_1,...,Q_{q-1} \} \). Estas son capaces de devolver  el número de items que se le pida

 

Ademas finamos un número de artículos, \(n\) que se dará en cada iteración de la recomendación

 Reinforcement learning (RF)

Proceso de decisión de Markov

Definimos el conjunto de acciones como

 

\( \mathcal{A} = \{0,1,2,\dots,q-1\}^n\)

 

Vectores de dimensión \( n\) donde cada uno de sus componentes pueden tomar valores en \( \{ 0,1,\dots,q-1\}\)

 Reinforcement learning (RF)

Proceso de decisión de Markov

De esta forma los vectores \( \textbf{a} \in \mathcal{A}  = \{0,1,\dots,q\}^n\), representan en cada componente un artículo

 

Es decir la componente \(a_i\) indica que el artículo \(i\) pertenece a la cola \( Q_{a_i}\)

 Reinforcement learning (RF)

Proceso de decisión de Markov

Definimos el conjunto de estados como

 

\( \mathcal{S} = \{0,1\}^n\)

 

Vectores de dimensión \( n\) donde cada uno de sus componentes pueden tomar valores en \( \{ 0,1\}\)

 Reinforcement learning (RF)

Proceso de decisión de Markov

De esta forma los vectores \( \textbf{s} \in \mathcal{S}  = \{0,1\}^n\), representan en cada componente un artículo

 

La componente \(s_i\) indica la aceptación del artículo \(i\) por parte del usuario

 Reinforcement learning (RF)

Proceso de decisión de Markov
\begin{bmatrix} a_1 \\ a_2 \\ . \\ . \\ a_n \end{bmatrix} \xRightarrow[user]{f(\textbf{a})} \begin{bmatrix} s_1 \\ s_2 \\ . \\ . \\ s_n \end{bmatrix}

 Reinforcement learning (RF)

Proceso de decisión de Markov
\textbf{a} = \begin{bmatrix} 3 \\ 1 \\ 2 \\ \end{bmatrix} \xRightarrow[user]{f(\textbf{a})} \textbf{s} = \begin{bmatrix} 0 \\ 1 \\ 1 \end{bmatrix}

 Por ejemplo, sea el conjunto de colas, \(\mathcal{Q} = \{Q_0,Q_1,Q_2 ,Q_3\} \), con \( n = 3 \)

 Reinforcement learning (RF)

Proceso de decisión de Markov
\textbf{a} = \begin{bmatrix} 3 \\ 1 \\ 2 \\ \end{bmatrix} \xRightarrow[user]{f(\textbf{a})} \textbf{s} = \begin{bmatrix} 0 \\ 1 \\ 1 \end{bmatrix} \xRightarrow[reward]{r(\textbf{s})} r(\textbf{s}) = sum(\textbf{s})

Definimos la función recompensa \( r: \mathcal{S} \rightarrow \mathbb{R}\)

 Reinforcement learning (RF)

Proceso de decisión de Markov
  • \(\mathcal{S} = \{ 0,1\}^n\) 
  • \(\mathcal{A} = \{ 0,...,q\}^n\) 
  • \(\mathbb{P}(s_{t+1}|s_{t},a_{t}) \) ¿?
  • \( r(s_t,a_t) = sum(s_t)\)  

 Reinforcement learning (RF)

Q-learning 

El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias.

 

No requiere un modelo del entorno.

 Reinforcement learning (RF)

Q-learning 

El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias.

 

No requiere un modelo del entorno.

 Reinforcement learning (RF)

Q-learning 

Articles

Recommedation

System

User

Feedback

Recommendation

Articles

\( RS_2 \)

User

Feedback

Recommendation

Vector \( \bm{a}_t\)

\( RS_1 \)

\( ... \)

\( RS_K \)

System of Recommendation Systems

\(  (\bm{a}_t)_1 \)

\(  (\bm{a}_t)_2 \)

\(  (\bm{a}_t)_K \)

deck

By Deyviss Jesus Oroya