Metodología de muestreo para clasificación de sentimientos en infografías

 

Contenido

  1. Introducción

  2. Clasificación

    • Actualización de información

    • Selección de ejemplares a comparar

  3. Implementación

    • Categorías de infografías

    • Tamaño de muestra

    • Número de comparación por día por individuo

  4. Conclusión

Introducción

Introducción

El objetivo de este estudio es identificar los sentimientos asociados con las infografías presentadas por Pictoline. Lograr esto de manera eficiente es de vital importancia pues las ventajas de una clasificación correcta se pueden ver reflejadas en campañas publicitarias más focalizadas al tipo de impacto que el cliente quiere lograr.

 

Introducción

Del mismo modo, pueden ayudar al equipo creativo a discernir que conjunto de factores (imágenes, combinaciones de colores, cantidad de texto) están asociados de manera más directa con que sentimientos y por tanto orientar su trabajo de manera más eficiente.

 

=
==
=
==

Clasificación

Clasificación 

Para llevar a cabo el proceso de clasificación, se propone utilizar una metodología bayesiana, en donde a todas las imágenes se les asocia un distribución a priori sobre los sentimientos que representa. Dicha distribución puede ser:

  • Uniforme, en caso de que se desee que todas las infografías comiencen con la misma factibilidad de sentimientos.

  • Semi informada, utilizando como insumo las reacciones de Facebook por ejemplo.

distribución de clases

Clasificación

Una de las tareas más críticas para llevar a cabo este experimento de manera eficiente, es la recabación e incorporación de información dentro de la distribución de sentimientos de cada imágen.

En este respecto es en donde se ven las ventajas evidentes de usar un acercamiento bayesiano, pues la incorporación de nueva información se reduce a una actualización de la distribución posterior de sentimientos.

P(S = s_i | Info_j)
P(S=siInfoj)P(S = s_i | Info_j)
P(S)P(Info_j | S = s_i)
P(S)P(InfojS=si)P(S)P(Info_j | S = s_i)
\simeq
\simeq

actualización información

Clasificación

+
++
=
==

actualización información

Clasificación

Otra de las grandes ventajas de utilizar esta metodología, es que la selección de ejemplares a comparar se debe llevar a cabo entre aquellos que proveen mayor información. De tal forma, una nueva infografía es comparada, principalmente, contra las infografías que representan cada uno de los sentimientos y por tanto su distribución se obtiene más rápida y confiablemente.

selección de ejemplares a comparar

Implementación

Implementación

Otra de las grandes ventajas de utilizar esta metodología, es que la selección de ejemplares a comparar se debe llevar a cabo entre aquellos que proveen mayor información. De tal forma, una nueva infografía es comparada, principalmente, contra las infografías que representan cada uno de los sentimientos y por tanto su distribución se obtiene más rápida y confiablemente.

categorías

Implementación

El tamaño de la muestra es relativo al nivel de precisión que se desea alcanzar y a la confiabilidad de la misma. Entre mayor sea la precisión, y confiabilidad, mayor deberá ser el tamaño de muestra.

 

tamaño de muestra

Implementación

Utilizando fuerza bruta, el número de comparaciones es igual al número de combinaciones de 2 en el total de infografías de la muestra. Este número crece en orden cuadrático y por tanto 1000 infografías requerirían 1000000 de comparaciones, lo cual es prohibitivo.

tamaño de muestra

{n}\choose{2}
(n2){n}\choose{2}
\sim O (n^2)
O(n2)\sim O (n^2)

Implementación

Para hacer una comparación más eficiente, es necesario tener un proxy de que tan complicado es clasificar un sentimiento.

 

Siguiendo la metodología de (deng et al 2009) es posible obtener dicho proxy seleccionando, parar cada sentimiento una muestra de N imágenes y con al menos 10 individuos, construir una tabla de confianza

tamaño de muestra

Implementación

Una vez construida dicha tabla, el número de rounds por imágen debe ser lo suficientemente grande como para alcanzar el nivel de confianza deseado.

tamaño de muestra

Usuario 1 si si si
Usuario 2 no si si
Usuario 3 no si si
Usuario 4 si no si
Usuario 5 si si si
Usuario 6 no no si

Ejemplo

¿La imágen expresa tristeza?

si no conf (tristeza)
0 1 .07
1 0 .85
1 1 .46
2 0 .97
0 2 .002
3 0 .99

Es claro que distintos sentimientos requerirán una mayor cantidad de acuerdos para que la confianza de que en efecto se trata de este sea mayor.

Implementación

Por tanto, con tal de implementar esta metodología, es necesario dividir el experimento en dos etapas:

  • La construcción de la tabla, en donde se requiere hacer un número de preguntas proporcional a

      en donde el 10 es el número de                 empleados encuestados y 

      representa el tamaño de muestra de         imágenes.

tamaño de muestra

10 \times N_{sentimientos}\times N_{muestra}
10×Nsentimientos×Nmuestra10 \times N_{sentimientos}\times N_{muestra}

Implementación

Por tanto, con tal de implementar esta metodología, es necesario dividir el experimento en dos etapas:

  • La sesión de rounds entre imágenes en donde la cantidad de rounds puede aumentar dependiendo de cuantos sean necesarios para obtener el nivel de confianza deseado. 

tamaño de muestra

Implementación

Como puede observarse, la única interrogante restante es como obtener 

 

Para esto es necesario estimar la distribución de sentimientos a través de todo el corpus de infografías. Dicha distribución puede ser modelada con una multinomial en donde se desea obtener los valores       que representan la probabilidad de que una infografía elegida al azar esté asociada con el sentimiento i

tamaño de muestra

N_{muestra}
NmuestraN_{muestra}
\pi_{i}
πi\pi_{i}

Implementación

Este tipo de escenarios fue estudiado por Thompson, 1987 el objetivo es encontrar n tal que se garantice:

 

 

En dónde d es el parámetro de precisión y alpha el de confianza. 

tamaño de muestra

P(|\Pi_i - \pi_i| > d)\leq\alpha
P(Πiπi>d)αP(|\Pi_i - \pi_i| > d)\leq\alpha

Implementación

tamaño de muestra

alpha d^2 *n min k n si d = .05
.5 .44129  177
.4 .50729  203
.3 .60123  241
.2 .74739 3 299
.1 1.00635  403
.01 1.96986  788
.001 3.02892  1212
.0001 4.11209  1645

Conclusión

deck

By Luis Roman

deck

  • 991