LUIS MANUEL ROMÁN GARCÍA
JOSÉ LUIS MORALES PÉREZ
ASESOR
SUSTENTANTE
2017
Suponemos que existe una función f que relaciona dos fenómenos (variables) de interés y, x.
No obstante, en la mayor parte de los casos, desconocemos la forma explícita de f y a lo más, contamos con un conjunto finito de observaciones que representan dicha relación.
Luego entonces, lo más que podemos hacer es usar un modelo que aproxime a f utilizando la muestra finita.
Ahora bien, suponiendo un escenario de gran escala en donde el número de observaciones ronda en los miles de millones, utilizar el total de la muestra para entrenar nuestro modelo se vuelve prohibitivo.
Planteamiento
De manera concreta, sean
y
conjuntos de variables aleatorias
Nuestra tarea consiste en encontrar, de manera eficiente, una hipótesis
de forma
tal que probablemente estime a
aproximadamente correcta.
independientes tales que
existe un concepto
.
Error de generalización
Para concretizar la noción de lo que es una hipótesis que aproxima eficientemente a una función de manera probablemente aproximadamente correcta, es necesario definir bajo qué criterio se va a medir dicha correctud.
Dados
y ,
como se definieron anteriormente, definimos al error
de generalización de
como:
Error de empírico
Para concretizar la noción de lo que es una hipótesis que aproxima eficientemente a una función de manera probablemente aproximadamente correcta, es necesario definir bajo que criterio se va a medir dicha correctud.
Dados
y ,
como se definieron anteriormente, definimos al error
empírico de
como:
PAC-aprendible
Ahora bien, dados
y
conjuntos de variables aleatorias
tales que
,
decimos que una familia de hipótesis
es PAC-aprendible si existe un algoritmo
que genera una hipótesis
tal que
se cumple que:
Decimos que es eficientemente PAC-aprendible si
tiene una complejidad de orden polinomial en el tamaño de los datos.
Dimensión-VC
Muy ligado al concepto de PAC-aprendible, está la noción de
dimensionalidad-VC de una familia de hipótesis .
Esto nos dice qué tan flexible o expresiva es una familia de hipótesis.
Formalmente:
La dimensión-VC de una familia de hipótesis es el máximo entero
tal que existe un conjunto con dicha cardinalidad que puede ser clasificado correctamente por una hipótesis
bajo cualquier forma de etiquetar sus puntos.
Descomposición del error
De las definiciones anteriores, se desprenden dos factores fundamentales que determinan nuestra capacidad para aprender un concepto, a saber:
1. La dimensión-VC de la familia de hipótesis
2. El tamaño de la muestra
Descomposición del error
Si denotamos con
a la hipótesis que minimiza el error de generalización,
con
a la hipótesis que minimiza el error de generalización dada la familia
de hipótesis seleccionada y
a la hipótesis que minimiza el error empírico
dada la familia de hipótesis seleccionada y dado el tamaño de la muestra disponible, tenemos que:
Descomposición del error
Si además, como es el caso de las aplicaciones de gran escala, el costo prohibitivo de usar el total de los datos que tenemos a nuestra disposición nos obliga a:
1.- Correr el algoritmo un número subóptimo de iteraciones
2.- Utilizar menos datos
Entonces tenemos una nueva hipótesis y una nueva descomposición del error:
Descomposición del error
De esta descomposición, son evidentes los distintos compromisos que uno debe hacer a la hora de construir una hipótesis que aproxime un concepto, a saber:
1.- Entre mayor sea la dimensión VC de la familia de hipótesis, el error de aproximación será menor, pero el error de estimación y el de optimización serán mayores.
2.- Entre mayor sea el tamaño de la muestra, menor será el error de estimación, pero mayor será el error de optimización.
3.- Entre mejor sea el algoritmo de optimización, menor será el error de optimización sin afectar el resto de los errores.
Planteamiento general
Siguiendo con la notación de la sección anterior, siendo
el concepto que deseamos aproximar y
una familia de hipótesis, nos enfocaremos en el problema de
encontrar tal que minimize el error empírico:
Planteamiento general
La forma en la cual obtendremos dicha será a través de un
proceso iterativo sobre el espacio de parámetros , que caracterizan a la
familia , comenzando con un "buen" punto
inicial . La iteración será de la forma:
con
,
Planteamiento general
La forma en la cual obtendremos dicha será a través de un
proceso iterativo sobre el espacio de parámetros , que caracterizan a la
familia , comenzando con un "buen" punto
inicial . La iteración será de la forma:
con
Planteamiento general
La forma en la cual obtendremos dicha será a través de un
proceso iterativo sobre el espacio de parámetros , que caracterizan a la
familia , comenzando con un "buen" punto
inicial . La iteración será de la forma:
con
Planteamiento general
Para estudiar el comportamiento general de este método, junto con algunas propiedades interesantes, es necesario establecer un par de supuestos.
Los primeros servirán para caracterizar el comportamiento general de esta familia de métodos y los segundos, para caracterizar la tasa de convergencia en un escenario con una función de pérdida estrictamente convexa.
Supuestos
1.- Continuidad Lipschitz del gradiente de la función objetivo
i.e. tal que
2.- Cotas para primer y segundo momento
a.- Existen constantes tales que
Supuestos
1.- Continuidad Lipschitz del gradiente de la función objetivo
i.e. tal que
2.- Cotas para primer y segundo momento
b.- Existen constantes tales que
Valor esperado de descenso
Bajo los supuestos 1, 2.a y 2.b, las iteraciones de gradiente estocástico satisfacen las siguientes desigualdades:
Con
Valor esperado de descenso
Bajo los supuestos 1, 2.a y 2.b, las iteraciones de gradiente estocástico satisfacen las siguientes desigualdades.
Con
Valor esperado de descenso
Bajo los supuestos 1, 2.a y 2.b, las iteraciones de gradiente estocástico satisfacen las siguientes desigualdades.
Con
Supuesto adicional
3.- Si agregamos el supuesto adicional de que debe ser estrictamente convexa, es decir, tal que:
Tasa de convergencia
Suponiendo 1, 2.a, 2.b y 3, tomando constante tal que
Entonces
Tasa de convergencia
Esta desigualdad es sumamente esclarecedora en cuanto a que muestra todos los factores que afectan la convergencia de este tipo de métodos.
Tasa de convergencia
Esta desigualdad es sumamente esclarecedora en cuanto a que muestra todos los factores que afectan la convergencia de este tipo de métodos.
Tasa de convergencia
Esta desigualdad es sumamente esclarecedora en cuanto a que muestra todos los factores que afectan la convergencia de este tipo de métodos.
Tasa de convergencia
Esta desigualdad es sumamente esclarecedora en cuanto a que muestra todos los factores que afectan la convergencia de este tipo de métodos.
Tasa de convergencia
Esta desigualdad es sumamente esclarecedora en cuanto a que muestra todos los factores que afectan la convergencia de este tipo de métodos.
Con tal de solventar algunas de las limitantes de esta familia de métodos, es que utilizamos información de segundo orden.
Planteamiento general
La forma en la cual obtendremos dicha será a través de un
proceso iterativo sobre el espacio de parámetros , que caracterizan a la
familia , comenzando con un "buen" punto
inicial . La iteración será de la forma:
con
Planteamiento general
La forma en la cual obtendremos dicha será a través de un
proceso iterativo sobre el espacio de parámetros , que caracterizan a la
familia , comenzando con un "buen" punto
inicial . La iteración será de la forma:
con
Supuestos generales
A lo largo de esta sección, supondremos lo siguiente:
2.1.- Acotamiento de los valores propios de la hessiana. Es decir,
supondremos que es doblemente diferenciable y cumple que
y con , tal que:
En donde
Supuestos generales
A lo largo de esta sección, supondremos lo siguiente:
El valor propio más pequeño y más grande de se denominarán y , respectivamente.
2.1.- Acotamiento de los valores propios de la hessiana. Es decir,
supondremos que es doblemente diferenciable y cumple que
y con , tal que:
Supuestos generales
A lo largo de esta sección, supondremos lo siguiente:
2.2.- Varianza acotada de los gradientes muestreados. Es decir,
tal que se cumple:
Supuestos generales
A lo largo de esta sección, supondremos lo siguiente:
2.3.- Continuidad Lipschitz de la Hessiana. Es decir,
tal que:
En donde
Supuestos generales
A lo largo de esta sección, supondremos lo siguiente:
2.4.- Varianza acotada de los componentes de la Hessiana. Es decir,
tal que:
Supuestos generales
A lo largo de esta sección, supondremos lo siguiente:
2.5.- Segundo momento acotado de las iteraciones generadas por
. Es decir, tal que:
Newton GC
Concretamente, con
En este método, se utiliza una aproximación al paso de Newton como
dirección de descenso en cada iteración. Es decir, es una aproximación
a la inversa de la Hessiana.
Newton GC
se obtiene por medio de iteraciones de gradiente conjugado.
A diferencia de newton convencional, la solución al sistema
Newton GC (A.1)
Seleccionar , y con
Para
1. Evaluar
2. Iterar GC o hasta
3. Actualizar
4. Seleccionar muestras con
Newton GC
Como puede observarse, este algoritmo tiene muchos metaparámetros que otorgan al usuario mucha flexibilidad:
1.- Tamaño de las muestras
2.- Número de iteraciones de gradiente conjugado
Con el trabajo pionero de Nocedal y Byrd (2011), se probó que bajo los supuestos 2.1 y 2.3 la secuencia generada cumple que
3.- Iteraciones de gradiente estocástico y tamaño de muestra
Newton GC
Como puede observarse, este algoritmo tiene muchos metaparámetros que otorgan al usuario mucha flexibilidad.
1.- Tamaño de las muestras
2.- Número de iteraciones de gradiente conjugado
3.- Iteraciones de gradiente estocástico y tamaño de muestra
Sin embargo, hasta antes del 2016, no existía un resultado que caracterizara la tasa de convergencia de este algoritmo ni los diferentes efectos que las posibles configuraciones de parámetros pudieran tener sobre la misma.
Newton GC
En septiembre 28 2016, Nocedal y Byrd publicaron los siguientes dos teoremas que caracterizan la tasa de convergencia de algoritmos de esta forma:
1.- Newton estocástico, convergencia esperada r-superlineal
2.- Newton estocástico truncado con gradiente conjugado, convergencia lineal.
Newton Estocástico
Suponiendo 2.1-2.5, sea la secuencia generada por A.1; resolviendo el sistema de manera exacta, entonces tenemos que si:
1.
2.
3.
Entonces tal que
Newton Estocástico
2.
3.
Entonces tal que
Qué tan positiva definida es la Hessiana
Suponiendo 2.1-2.5, sea la secuencia generada por A.1; resolviendo el sistema de manera exacta, entonces tenemos que si:
1.
Newton Estocástico
2.
3.
Entonces tal que
Qué tan laxa es la continuidad de la Hessiana
Suponiendo 2.1-2.5, sea la secuencia generada por A.1; resolviendo el sistema de manera exacta, entonces tenemos que si:
1.
Newton Estocástico
2.
3.
Entonces tal que
Qué tanto ruido hay en las iteraciones (cota de segundo momento)
Suponiendo 2.1-2.5, sea la secuencia generada por A.1; resolviendo el sistema de manera exacta, entonces tenemos que si:
1.
Newton Estocástico
2.
3.
Entonces tal que
Qué tanta varianza hay en las componentes de la Hessiana
Suponiendo 2.1-2.5, sea la secuencia generada por A.1; resolviendo el sistema de manera exacta, entonces tenemos que si:
1.
Newton Estocástico
2.
3.
Entonces tal que
Qué tanta varianza hay en las componentes del gradiente
Suponiendo 2.1-2.5, sea la secuencia generada por A.1; resolviendo el sistema de manera exacta, entonces tenemos que si:
1.
Newton Estocástico GC
Suponiendo 2.1-2.5, sea la secuencia generada por A.1; resolviendo el sistema con iteraciones de gradiente conjugado, entonces tenemos que si:
1.
2. En cada iteración se realizan iteraciones de GC con
y
3.
Entonces
Newton Estocástico GC
Suponiendo 2.1-2.5, sea la secuencia generada por A.1; resolviendo el sistema con iteraciones de gradiente conjugado, entonces tenemos que si:
1.
2. En cada iteración se realizan iteraciones de GC con
y
3.
Entonces
Qué tanta varianza hay en las componentes de la Hessiana
Newton Estocástico GC
Suponiendo 2.1-2.5, sea la secuencia generada por A.1; resolviendo el sistema con iteraciones de gradiente conjugado, entonces tenemos que si:
1.
2. En cada iteración se realizan iteraciones de GC con
y
3.
Entonces
Número de condición de la Hessiana
Newton Estocástico GC
Como puede observarse, en ambas variantes de este método, hay una gran dependencia en cuanto a la distancia existente entre el punto incial y el óptimo:
1.- Newton estocástico
2.- Newton estocástico GC
Posible solución: realizar iteraciones de descenso en gradiente estocástico hasta que algún proxy de estas condiciones se cumpla.
L-BFGS estocástico
En el método original, cada iteración tiene la forma:
Este método es una variación del algoritmo BFGS en donde, en cada iteración, se utiliza la información obtenida en los últimos T periodos para obtener una dirección de descenso que toma en consideración información de curvatura.
L-BFGS estocástico
En donde cada se obtiene resolviendo el problema:
Este método es una variación del algoritmo BFGS en donde, en cada iteración, se utiliza la información obtenida en los últimos T periodos para obtener una dirección de descenso que toma en consideración información de curvatura.
L-BFGS estocástico
Cuya solución está dada por:
Este método es una variación del algoritmo BFGS en donde, en cada iteración, se utiliza la información obtenida en los últimos T periodos para obtener una dirección de descenso que toma en consideración información de curvatura.
L-BFGS estocástico
Es necesario agregar una condición adicional sobre la ecuación de secante para garantizar que pueda mapear a sobre . Ésta es:
Este método es una variación del algoritmo BFGS en donde, en cada iteración, se utiliza la información obtenida en los últimos T periodos para obtener una dirección de descenso que toma en consideración información de curvatura.
L-BFGS estocástico
Una desventaja de este método es que requiere almacenar la matriz
para llevar a cabo la actualización del paso en cada iteración. Una solución muy ingeniosa utiliza la información de los últimos T pasos, haciendo uso de la siguiente recursión:
L-BFGS estocástico
La única cuestión que queda por resolver es qué matriz utilizar como .
Lo que se utiliza convencionalmente en la práctica es:
El problema con esta metodología es que no posee información relevante sobre la curvatura de la función. En el escenario ideal
por lo que aproximaremos resolviendo el
sistema por medio de iteraciones de GC.
L-BFGS estocástico (A.2)
Para
Obtener aproximando la solución de
Para
Regresar
L-BFGS estocástico (A.3)
Seleccionar , y con
Mientras
1. Almacenar y obtener
2. Actualizar , ,
3. Seleccionar muestras con
0. Evaluar y hacer
4. Obtener con A.2
L-BFGS estocástico (convergencia)
Nocedal y Byrd (2011) prueban que este método converge globalmente bajo 2.1 y 2.3 y Nocedal y Byrd (2015) prueban que la tasa de convergencia es r-lineal
L-BFGS estocástico (convergencia r-líneal)
Bajo 2.1-2.5 y suponiendo que:
1.-
2.-
Entonces
Ambos métodos se probaron y se compararon con su contraparte determinística L-BFGS en dos contextos:
1.- Determinístico
2.- No determinístico
Escenarios de prueba
Escenarios de prueba (Determinístico)
En este contexto, se buscó minimizar dos funciones:
1.
Escenarios de prueba (Determinístico)
En este contexto, se buscó minimizar dos funciones:
2.
Escenarios de prueba (No determinístico)
Para probar la eficiencia de estos métodos en el contexto de aprendizaje automático, en esta sección, entrenaremos una regresión logística para aprender a clasificar señal de ruido en una base de datos generada con observaciones de choques de partículas en el Boson de Higgs. La base de datos consta de once millones de observaciones, de las cuales se muestrearon un millón para correr estos algoritmos en un ambiente no paralelizado. Del mismo modo, la base cuenta con 27 atributos que son propiedades cinemáticas medidas con detectores de partículas. La variable de interés es binaria y lo que se busca es identificar la señal (1) del ruido (0).
Escenarios de prueba (No determinístico)
Con tal de usar una versión númericamente más estable que la lógistica convencional, se llevó a cabo la siguiente transformación:
Escenarios de prueba (No determinístico)
La notación utilizada en los gráficos es la siguiente:
Conclusiones
Conclusiones
Conclusiones
Conclusiones
Trabajo futuro