Introducción
Clasificación
Actualización de información
Selección de ejemplares a comparar
Implementación
Categorías de infografías
Tamaño de muestra
Número de comparación por día por individuo
El objetivo de este estudio es identificar los sentimientos asociados con las infografías presentadas por Pictoline. Lograr esto de manera eficiente es de vital importancia pues las ventajas de una clasificación correcta se pueden ver reflejadas en campañas publicitarias más focalizadas al tipo de impacto que el cliente quiere lograr.
Del mismo modo, pueden ayudar al equipo creativo a discernir que conjunto de factores (imágenes, combinaciones de colores, cantidad de texto) están asociados de manera más directa con que sentimientos y por tanto orientar su trabajo de manera más eficiente.
Para llevar a cabo el proceso de clasificación, se propone utilizar una metodología bayesiana, en donde a todas las imágenes se les asocia un distribución a priori sobre los sentimientos que representa. Dicha distribución puede ser:
Uniforme, en caso de que se desee que todas las infografías comiencen con la misma factibilidad de sentimientos.
distribución de clases
Una de las tareas más críticas para llevar a cabo este experimento de manera eficiente, es la recabación e incorporación de información dentro de la distribución de sentimientos de cada imágen.
En este respecto es en donde se ven las ventajas evidentes de usar un acercamiento bayesiano, pues la incorporación de nueva información se reduce a una actualización de la distribución posterior de sentimientos.
actualización información
actualización información
Otra de las grandes ventajas de utilizar esta metodología, es que la selección de ejemplares a comparar se debe llevar a cabo entre aquellos que proveen mayor información. De tal forma, una nueva infografía es comparada, principalmente, contra las infografías que representan cada uno de los sentimientos y por tanto su distribución se obtiene más rápida y confiablemente.
selección de ejemplares a comparar
Otra de las grandes ventajas de utilizar esta metodología, es que la selección de ejemplares a comparar se debe llevar a cabo entre aquellos que proveen mayor información. De tal forma, una nueva infografía es comparada, principalmente, contra las infografías que representan cada uno de los sentimientos y por tanto su distribución se obtiene más rápida y confiablemente.
categorías
El tamaño de la muestra es relativo al nivel de precisión que se desea alcanzar y a la confiabilidad de la misma. Entre mayor sea la precisión, y confiabilidad, mayor deberá ser el tamaño de muestra.
tamaño de muestra
Utilizando fuerza bruta, el número de comparaciones es igual al número de combinaciones de 2 en el total de infografías de la muestra. Este número crece en orden cuadrático y por tanto 1000 infografías requerirían 1000000 de comparaciones, lo cual es prohibitivo.
tamaño de muestra
Para hacer una comparación más eficiente, es necesario tener un proxy de que tan complicado es clasificar un sentimiento.
Siguiendo la metodología de (deng et al 2009) es posible obtener dicho proxy seleccionando, parar cada sentimiento una muestra de N imágenes y con al menos 10 individuos, construir una tabla de confianza
tamaño de muestra
Una vez construida dicha tabla, el número de rounds por imágen debe ser lo suficientemente grande como para alcanzar el nivel de confianza deseado.
tamaño de muestra
Usuario 1 | si | si | si |
Usuario 2 | no | si | si |
Usuario 3 | no | si | si |
Usuario 4 | si | no | si |
Usuario 5 | si | si | si |
Usuario 6 | no | no | si |
¿La imágen expresa tristeza?
si | no | conf (tristeza) |
---|---|---|
0 | 1 | .07 |
1 | 0 | .85 |
1 | 1 | .46 |
2 | 0 | .97 |
0 | 2 | .002 |
3 | 0 | .99 |
Es claro que distintos sentimientos requerirán una mayor cantidad de acuerdos para que la confianza de que en efecto se trata de este sea mayor.
Por tanto, con tal de implementar esta metodología, es necesario dividir el experimento en dos etapas:
en donde el 10 es el número de empleados encuestados y
representa el tamaño de muestra de imágenes.
tamaño de muestra
Por tanto, con tal de implementar esta metodología, es necesario dividir el experimento en dos etapas:
tamaño de muestra
Como puede observarse, la única interrogante restante es como obtener
Para esto es necesario estimar la distribución de sentimientos a través de todo el corpus de infografías. Dicha distribución puede ser modelada con una multinomial en donde se desea obtener los valores que representan la probabilidad de que una infografía elegida al azar esté asociada con el sentimiento i
tamaño de muestra
Este tipo de escenarios fue estudiado por Thompson, 1987 el objetivo es encontrar n tal que se garantice:
En dónde d es el parámetro de precisión y alpha el de confianza.
tamaño de muestra
tamaño de muestra
alpha | d^2 *n | min k | n si d = .05 |
---|---|---|---|
.5 | .44129 | 4 | 177 |
.4 | .50729 | 4 | 203 |
.3 | .60123 | 3 | 241 |
.2 | .74739 | 3 | 299 |
.1 | 1.00635 | 3 | 403 |
.01 | 1.96986 | 2 | 788 |
.001 | 3.02892 | 2 | 1212 |
.0001 | 4.11209 | 2 | 1645 |