User
Application
Recommendation system
RF usa el framework matemático de las procesos de decisión de Markov
Proceso de decisión de Markov
Proceso de decisión de Markov
Sea el conjunto de colas \(\mathcal{Q} = \{Q_0,Q_1,...,Q_{q-1} \} \). Estas son capaces de devolver el número de items que se le pida
Ademas finamos un número de artículos, \(n\) que se dará en cada iteración de la recomendación
Proceso de decisión de Markov
Definimos el conjunto de acciones como
\( \mathcal{A} = \{0,1,2,\dots,q-1\}^n\)
Vectores de dimensión \( n\) donde cada uno de sus componentes pueden tomar valores en \( \{ 0,1,\dots,q-1\}\)
Proceso de decisión de Markov
De esta forma los vectores \( \textbf{a} \in \mathcal{A} = \{0,1,\dots,q\}^n\), representan en cada componente un artículo
Es decir la componente \(a_i\) indica que el artículo \(i\) pertenece a la cola \( Q_{a_i}\)
Proceso de decisión de Markov
Definimos el conjunto de estados como
\( \mathcal{S} = \{0,1\}^n\)
Vectores de dimensión \( n\) donde cada uno de sus componentes pueden tomar valores en \( \{ 0,1\}\)
Proceso de decisión de Markov
De esta forma los vectores \( \textbf{s} \in \mathcal{S} = \{0,1\}^n\), representan en cada componente un artículo
La componente \(s_i\) indica la aceptación del artículo \(i\) por parte del usuario
Proceso de decisión de Markov
Proceso de decisión de Markov
Por ejemplo, sea el conjunto de colas, \(\mathcal{Q} = \{Q_0,Q_1,Q_2 ,Q_3\} \), con \( n = 3 \)
Proceso de decisión de Markov
Definimos la función recompensa \( r: \mathcal{S} \rightarrow \mathbb{R}\)
Proceso de decisión de Markov
Q-learning
El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias.
No requiere un modelo del entorno.
Q-learning
El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias.
No requiere un modelo del entorno.
Q-learning
Articles
Recommedation
System
User
Feedback
Recommendation
Articles
\( RS_2 \)
User
Feedback
Recommendation
Vector \( \bm{a}_t\)
\( RS_1 \)
\( ... \)
\( RS_K \)
System of Recommendation Systems
\( (\bm{a}_t)_1 \)
\( (\bm{a}_t)_2 \)
\( (\bm{a}_t)_K \)