Sistema de Recomendación
Reinforcement learning
Reinforcement learning
Reinforcement learning
RS
RS
US
US
APP
APP
User
Application
Recommendation system
Reinforcement learning (RF)
RF usa el framework matemático de las procesos de decisión de Markov
Reinforcement learning (RF)
Proceso de decisión de Markov
- \(\mathcal{S}\) es un conjunto de estados finitos
- \(\mathcal{A}\) es un conjunto de acctiones finitas
- \(\mathbb{P}(s_{t+1}|s_{t},a_{t}) \) es una distribución de probabilidad
- \( r(s_t,a_t) \) es una función de recompensa
Reinforcement learning (RF)
Proceso de decisión de Markov
Sea el conjunto de colas \(\mathcal{Q} = \{Q_0,Q_1,...,Q_{q-1} \} \). Estas son capaces de devolver el número de items que se le pida
Ademas finamos un número de artículos, \(n\) que se dará en cada iteración de la recomendación
Reinforcement learning (RF)
Proceso de decisión de Markov
Definimos el conjunto de acciones como
\( \mathcal{A} = \{0,1,2,\dots,q-1\}^n\)
Vectores de dimensión \( n\) donde cada uno de sus componentes pueden tomar valores en \( \{ 0,1,\dots,q-1\}\)
Reinforcement learning (RF)
Proceso de decisión de Markov
De esta forma los vectores \( \textbf{a} \in \mathcal{A} = \{0,1,\dots,q\}^n\), representan en cada componente un artículo
Es decir la componente \(a_i\) indica que el artículo \(i\) pertenece a la cola \( Q_{a_i}\)
Reinforcement learning (RF)
Proceso de decisión de Markov
Definimos el conjunto de estados como
\( \mathcal{S} = \{0,1\}^n\)
Vectores de dimensión \( n\) donde cada uno de sus componentes pueden tomar valores en \( \{ 0,1\}\)
Reinforcement learning (RF)
Proceso de decisión de Markov
De esta forma los vectores \( \textbf{s} \in \mathcal{S} = \{0,1\}^n\), representan en cada componente un artículo
La componente \(s_i\) indica la aceptación del artículo \(i\) por parte del usuario
Reinforcement learning (RF)
Proceso de decisión de Markov
Reinforcement learning (RF)
Proceso de decisión de Markov
Por ejemplo, sea el conjunto de colas, \(\mathcal{Q} = \{Q_0,Q_1,Q_2 ,Q_3\} \), con \( n = 3 \)
Reinforcement learning (RF)
Proceso de decisión de Markov
Definimos la función recompensa \( r: \mathcal{S} \rightarrow \mathbb{R}\)
Reinforcement learning (RF)
Proceso de decisión de Markov
- \(\mathcal{S} = \{ 0,1\}^n\)
- \(\mathcal{A} = \{ 0,...,q\}^n\)
- \(\mathbb{P}(s_{t+1}|s_{t},a_{t}) \) ¿?
- \( r(s_t,a_t) = sum(s_t)\)
Reinforcement learning (RF)
Q-learning
El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias.
No requiere un modelo del entorno.
Reinforcement learning (RF)
Q-learning
El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias.
No requiere un modelo del entorno.
Reinforcement learning (RF)
Q-learning
Articles
Recommedation
System
User
Feedback
Recommendation
Articles
\( RS_2 \)
User
Feedback
Recommendation
Vector \( \bm{a}_t\)
\( RS_1 \)
\( ... \)
\( RS_K \)
System of Recommendation Systems
\( (\bm{a}_t)_1 \)
\( (\bm{a}_t)_2 \)
\( (\bm{a}_t)_K \)
deck
By Deyviss Jesus Oroya
deck
- 34