Metodología de muestreo para clasificación de sentimientos en infografías
Contenido
-
Introducción
-
Clasificación
-
Actualización de información
-
Selección de ejemplares a comparar
-
-
Implementación
-
Categorías de infografías
-
Tamaño de muestra
-
Número de comparación por día por individuo
-
- Conclusión
Introducción
Introducción
El objetivo de este estudio es identificar los sentimientos asociados con las infografías presentadas por Pictoline. Lograr esto de manera eficiente es de vital importancia pues las ventajas de una clasificación correcta se pueden ver reflejadas en campañas publicitarias más focalizadas al tipo de impacto que el cliente quiere lograr.
Introducción
Del mismo modo, pueden ayudar al equipo creativo a discernir que conjunto de factores (imágenes, combinaciones de colores, cantidad de texto) están asociados de manera más directa con que sentimientos y por tanto orientar su trabajo de manera más eficiente.
Clasificación
Clasificación
Para llevar a cabo el proceso de clasificación, se propone utilizar una metodología bayesiana, en donde a todas las imágenes se les asocia un distribución a priori sobre los sentimientos que representa. Dicha distribución puede ser:
-
Uniforme, en caso de que se desee que todas las infografías comiencen con la misma factibilidad de sentimientos.
- Semi informada, utilizando como insumo las reacciones de Facebook por ejemplo.
distribución de clases
Clasificación
Una de las tareas más críticas para llevar a cabo este experimento de manera eficiente, es la recabación e incorporación de información dentro de la distribución de sentimientos de cada imágen.
En este respecto es en donde se ven las ventajas evidentes de usar un acercamiento bayesiano, pues la incorporación de nueva información se reduce a una actualización de la distribución posterior de sentimientos.
actualización información
Clasificación
actualización información
Clasificación
Otra de las grandes ventajas de utilizar esta metodología, es que la selección de ejemplares a comparar se debe llevar a cabo entre aquellos que proveen mayor información. De tal forma, una nueva infografía es comparada, principalmente, contra las infografías que representan cada uno de los sentimientos y por tanto su distribución se obtiene más rápida y confiablemente.
selección de ejemplares a comparar
Implementación
Implementación
Otra de las grandes ventajas de utilizar esta metodología, es que la selección de ejemplares a comparar se debe llevar a cabo entre aquellos que proveen mayor información. De tal forma, una nueva infografía es comparada, principalmente, contra las infografías que representan cada uno de los sentimientos y por tanto su distribución se obtiene más rápida y confiablemente.
categorías
Implementación
El tamaño de la muestra es relativo al nivel de precisión que se desea alcanzar y a la confiabilidad de la misma. Entre mayor sea la precisión, y confiabilidad, mayor deberá ser el tamaño de muestra.
tamaño de muestra
Implementación
Utilizando fuerza bruta, el número de comparaciones es igual al número de combinaciones de 2 en el total de infografías de la muestra. Este número crece en orden cuadrático y por tanto 1000 infografías requerirían 1000000 de comparaciones, lo cual es prohibitivo.
tamaño de muestra
Implementación
Para hacer una comparación más eficiente, es necesario tener un proxy de que tan complicado es clasificar un sentimiento.
Siguiendo la metodología de (deng et al 2009) es posible obtener dicho proxy seleccionando, parar cada sentimiento una muestra de N imágenes y con al menos 10 individuos, construir una tabla de confianza
tamaño de muestra
Implementación
Una vez construida dicha tabla, el número de rounds por imágen debe ser lo suficientemente grande como para alcanzar el nivel de confianza deseado.
tamaño de muestra
Usuario 1 | si | si | si |
Usuario 2 | no | si | si |
Usuario 3 | no | si | si |
Usuario 4 | si | no | si |
Usuario 5 | si | si | si |
Usuario 6 | no | no | si |
Ejemplo
¿La imágen expresa tristeza?
si | no | conf (tristeza) |
---|---|---|
0 | 1 | .07 |
1 | 0 | .85 |
1 | 1 | .46 |
2 | 0 | .97 |
0 | 2 | .002 |
3 | 0 | .99 |
Es claro que distintos sentimientos requerirán una mayor cantidad de acuerdos para que la confianza de que en efecto se trata de este sea mayor.
Implementación
Por tanto, con tal de implementar esta metodología, es necesario dividir el experimento en dos etapas:
- La construcción de la tabla, en donde se requiere hacer un número de preguntas proporcional a
en donde el 10 es el número de empleados encuestados y
representa el tamaño de muestra de imágenes.
tamaño de muestra
Implementación
Por tanto, con tal de implementar esta metodología, es necesario dividir el experimento en dos etapas:
- La sesión de rounds entre imágenes en donde la cantidad de rounds puede aumentar dependiendo de cuantos sean necesarios para obtener el nivel de confianza deseado.
tamaño de muestra
Implementación
Como puede observarse, la única interrogante restante es como obtener
Para esto es necesario estimar la distribución de sentimientos a través de todo el corpus de infografías. Dicha distribución puede ser modelada con una multinomial en donde se desea obtener los valores que representan la probabilidad de que una infografía elegida al azar esté asociada con el sentimiento i
tamaño de muestra
Implementación
Este tipo de escenarios fue estudiado por Thompson, 1987 el objetivo es encontrar n tal que se garantice:
En dónde d es el parámetro de precisión y alpha el de confianza.
tamaño de muestra
Implementación
tamaño de muestra
alpha | d^2 *n | min k | n si d = .05 |
---|---|---|---|
.5 | .44129 | 4 | 177 |
.4 | .50729 | 4 | 203 |
.3 | .60123 | 3 | 241 |
.2 | .74739 | 3 | 299 |
.1 | 1.00635 | 3 | 403 |
.01 | 1.96986 | 2 | 788 |
.001 | 3.02892 | 2 | 1212 |
.0001 | 4.11209 | 2 | 1645 |
Conclusión
deck
By Luis Roman
deck
- 991