Sistema de Recomendación

Reinforcement learning

RS

US

APP

User

Application

Recommendation system

Reinforcement learning (RF)

RF usa el framework matemático de las procesos de decisión de Markov

Reinforcement learning (RF)

Proceso de decisión de Markov

\(\mathcal{S}\) es un conjunto de estados finitos
\(\mathcal{A}\) es un conjunto de acctiones finitas
\(\mathbb{P}(s_{t+1}|s_{t},a_{t}) \) es una distribución de probabilidad
\( r(s_t,a_t) \) es una función de recompensa

Reinforcement learning (RF)

Proceso de decisión de Markov

Sea el conjunto de colas \(\mathcal{Q} = \{Q_0,Q_1,...,Q_{q-1} \} \). Estas son capaces de devolver el número de items que se le pida

Ademas finamos un número de artículos, \(n\) que se dará en cada iteración de la recomendación

Reinforcement learning (RF)

Proceso de decisión de Markov

Definimos el conjunto de acciones como

\( \mathcal{A} = \{0,1,2,\dots,q-1\}^n\)

Vectores de dimensión \( n\) donde cada uno de sus componentes pueden tomar valores en \( \{ 0,1,\dots,q-1\}\)

Reinforcement learning (RF)

Proceso de decisión de Markov

De esta forma los vectores \( \textbf{a} \in \mathcal{A} = \{0,1,\dots,q\}^n\), representan en cada componente un artículo

Es decir la componente \(a_i\) indica que el artículo \(i\) pertenece a la cola \( Q_{a_i}\)

Reinforcement learning (RF)

Proceso de decisión de Markov

Definimos el conjunto de estados como

\( \mathcal{S} = \{0,1\}^n\)

Vectores de dimensión \( n\) donde cada uno de sus componentes pueden tomar valores en \( \{ 0,1\}\)

Reinforcement learning (RF)

Proceso de decisión de Markov

De esta forma los vectores \( \textbf{s} \in \mathcal{S} = \{0,1\}^n\), representan en cada componente un artículo

La componente \(s_i\) indica la aceptación del artículo \(i\) por parte del usuario

Reinforcement learning (RF)

Proceso de decisión de Markov

\begin{bmatrix} a_1 \\ a_2 \\ . \\ . \\ a_n \end{bmatrix} \xRightarrow[user]{f(\textbf{a})} \begin{bmatrix} s_1 \\ s_2 \\ . \\ . \\ s_n \end{bmatrix}

Reinforcement learning (RF)

Proceso de decisión de Markov

\textbf{a} = \begin{bmatrix} 3 \\ 1 \\ 2 \\ \end{bmatrix} \xRightarrow[user]{f(\textbf{a})} \textbf{s} = \begin{bmatrix} 0 \\ 1 \\ 1 \end{bmatrix}

Por ejemplo, sea el conjunto de colas, \(\mathcal{Q} = \{Q_0,Q_1,Q_2 ,Q_3\} \), con \( n = 3 \)

Reinforcement learning (RF)

Proceso de decisión de Markov

\textbf{a} = \begin{bmatrix} 3 \\ 1 \\ 2 \\ \end{bmatrix} \xRightarrow[user]{f(\textbf{a})} \textbf{s} = \begin{bmatrix} 0 \\ 1 \\ 1 \end{bmatrix} \xRightarrow[reward]{r(\textbf{s})} r(\textbf{s}) = sum(\textbf{s})

Definimos la función recompensa \( r: \mathcal{S} \rightarrow \mathbb{R}\)

Reinforcement learning (RF)

Proceso de decisión de Markov

\(\mathcal{S} = \{ 0,1\}^n\)
\(\mathcal{A} = \{ 0,...,q\}^n\)
\(\mathbb{P}(s_{t+1}|s_{t},a_{t}) \) ¿?
\( r(s_t,a_t) = sum(s_t)\)

Reinforcement learning (RF)

Q-learning

El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias.

No requiere un modelo del entorno.

Reinforcement learning (RF)

Q-learning

El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias.

No requiere un modelo del entorno.

Reinforcement learning (RF)

Q-learning

Articles

Recommedation

System

User

Feedback

Recommendation

Articles

\( RS_2 \)

User

Feedback

Recommendation

Vector \( \bm{a}_t\)

\( RS_1 \)

\( ... \)

\( RS_K \)

System of Recommendation Systems

\( (\bm{a}_t)_1 \)

\( (\bm{a}_t)_2 \)

\( (\bm{a}_t)_K \)

deck

By Deyviss Jesus Oroya

Sistema de Recomendación

Reinforcement learning

Reinforcement learning

Reinforcement learning

RS

RS

US

US

APP

APP

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

Reinforcement learning (RF)

deck

More from Deyviss Jesus Oroya