Unidad 1: Introducción a los Sistemas Inteligentes
Ing. Oscar Alonso Rosete Beas
Semana 24 Enero Rev:2 ciclo 2022-1
oscarrosete.com
oscarrosete.com
1.1. Encuadre del curso
1.2. Introducción a los Sistemas Inteligentes
1.3. Agentes y búsqueda
1.4. Teorema de Bayes
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
Horas de Clase Asistidas: 64
Horas de Clase Independientes: 64
Duración Total: 128 horas
Horario: Martes 15:00-17:00 / Jueves 15:00-17:00
Salón: 28106
DATOS DEL DOCENTE
Nombre: Oscar Alonso Rosete Beas
E-mail: oscar.rosete@cetys.mx
oscarrosete.com
oscarrosete.com
Este curso tiene como propósito que el alumno aplique los métodos que simulan aspectos del comportamiento inteligente, con la intención de aprender de la naturaleza.
Durante el curso se estudiará:
Algoritmos basados en lógica difusa, redes neuronales, sistemas basados en conocimiento y la interacción hombre-máquina.
Diseño sistemas, procesos, productos y/o componentes basados en software aplicando métodos, técnicas, y herramientas modernas
oscarrosete.com
Las actividades que se realicen dentro del aula serán dirigidas por el profesor y otras serán de carácter independiente para ser realizadas por los alumnos fuera del aula.
Las formas genéricas de actividades de aprendizaje que serán realizadas por los alumnos son:
oscarrosete.com
oscarrosete.com
oscarrosete.com
Reportes de lectura y reportes de investigación.
Prácticas de Laboratorio(*)
Presentaciones en clase.
Elaboración de prototipos.
Exámenes escritos a lo largo del curso y examen final.
Proyecto final integrador en donde se apliquen las herramientas vistas durante el curso.
oscarrosete.com
oscarrosete.com
1.1. Encuadre del curso
1.2. Introducción a los Sistemas Inteligentes
1.3. Agentes y búsqueda
1.4. Teorema de Bayes
oscarrosete.com
oscarrosete.com
2.1. Introducción a la Lógica Difusa
2.2. Conjuntos difusos y funciones de membresía
2.3. Operaciones sobre conjuntos difusos
2.4. Inferencia usando Lógica Difusa
2.5. Diseño de clasificadores difusos
oscarrosete.com
oscarrosete.com
3.1. Aprendizaje supervisado y no supervisado
3.2. Algoritmo “Backpropagation through time”
3.3. Aprendizaje en tiempo real
3.4. Algoritmo K-Means
3.4. Redes Neuronales
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
Bibliografía
Hangos, K. M., Lakner, R., & Gerzson, M. (2001). Intelligent Control Systems: An Introduction with Examples. Secaucus, NJ, USA: Kluwer Academic Publishers. Retrieved from http://www.ebrary.com
Graupe, D. (2007). Principles of Artificial Neural Networks (2nd Edition). River Edge, NJ, USA: World Scientific. Retrieved from http://www.ebrary.com
Sra, S., Nowozin, S., & Wright, S. J. (Eds.). (2011). Optimization for Machine Learning. Cambridge, MA, USA: MIT Press. Retrieved from http://www.ebrary.com
oscarrosete.com
oscarrosete.com
Software:
Python, MATLAB
Herramientas digitales:
Blackboard, Google suite, recursos microsoft, portafolio electronico, bases de datos.
oscarrosete.com
oscarrosete.com
Concepto | Descripción | Ponderación |
---|---|---|
Formación: Actitudes y valores | Actitud en actividades individuales y en equipo relacionadas a la clase | 10% |
Examenes | Pruebas objetivas en forma de exámenes parciales y/o finales | 20% |
Tareas | Resolución de ejemplos típicos, solución de problemas en tareas individuales y en equipo. | 30% |
Presentaciones | Exposiciones de acuerdo a temáticas asignadas | 10% |
Proyectos | Desarrollo y presentaciones profesionales de los proyectos | 30% |
oscarrosete.com
oscarrosete.com
Profesor:
Ing. Oscar Alonso Rosete Beas
E-Mail:
oscar.rosete@cetys.mx
Pagina de facebook:
https://www.facebook.com/oscararosete
Sitio web:
https://oscarrosete.com/
oscarrosete.com
oscarrosete.com
Asesorías: WhatsApp 686 264 5073
oscarrosete.com
oscarrosete.com
Desarrollar un proyecto de innovación a nivel experimental de tecnología utilizando el material visto en el curso, donde el alumno proponga la solución de un problema planteado mediante el desarrollo de un proceso para la implementación de la solución y la realización de pruebas de factibilidad y utilidad de un sistema.
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
1.1. Encuadre del curso
1.2. Introducción a los Sistemas Inteligentes
1.3. Agentes y búsqueda
1.4. Teorema de Bayes
oscarrosete.com
oscarrosete.com
El enfoque tradicional desarrollado estuvo basado en problemas muy bien definidos con modelos precisos pero carecen de autonomía y la habilidad de la toma de decisiones.
La problemática es utilizarlos en entornos inciertos.
Intelligent Systems: Modeling, Optimization, and Control
By Yung C. Shin, Chengying Xu
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
En años recientes, ha habido un incremento de interés dramático en técnicas de computación para aplicaciones científicas e ingenieriles.
Los sistemas inteligentes son un término que cubre los distintos enfoques para el diseño, optimizan y control de sistemas variados que no cuenten con modelo matemático o que cuenten con incertidumbre.
Intelligent Systems: Modeling, Optimization, and Control
By Yung C. Shin, Chengying Xu
oscarrosete.com
oscarrosete.com
En cierta manera estos enfoques intentan emular el comportamiento humano.
Los sistemas inteligentes involucran campos como las redes neuronales, lógica difusa, estrategias evolutivas y algoritmos genéticos, entre otros.
Intelligent Systems: Modeling, Optimization, and Control
By Yung C. Shin, Chengying Xu
oscarrosete.com
oscarrosete.com
Los sistemas inteligentes son definidos con atributos que le permiten un alto grado de autonomía, razonamiento bajo incertidumbre, mejor desempeño en la búsqueda de la meta, fusión de la información de múltiples sensores, aprendizaje y adaptación al entorno.
Intelligent Systems: Modeling, Optimization, and Control
By Yung C. Shin, Chengying Xu
oscarrosete.com
oscarrosete.com
La inteligencia artificial solo se enfoca al desarrollo de robots
oscarrosete.com
oscarrosete.com
La Inteligencia Artificial estudia los modelos computacionales que sirven para simular o formalizar las actividades inteligentes (cognitivas).
Percepción, razonamiento (relacionada con lógica), aprendizaje, entre otras.
oscarrosete.com
oscarrosete.com
Se ha de tener en cuenta la frontera entre la IA y otras ramas de la ciencia como la psicología o la filosofía.
El enfoque de la IA es unir las ramas de las matemáticas y la ingeniería para crear artefactos que actúen de manera inteligente.
Objetivo primordial es la formalización de una actuación racional, apoyada en un Agente inteligente.
Lógica computacional
Martín Rubio Fernando, Paniagua Aris Enrique, Sanchez González Juan Luís.
oscarrosete.com
oscarrosete.com
Un agente inteligente es el conjunto de componentes de Hardware y software que es capaz de realizar una o varias actividades cognitivas determinadas.
Usualmente ligamos el termino inteligencia a la demostración o posibilidad de resolver un problema.
Lógica computacional
Martín Rubio Fernando, Paniagua Aris Enrique, Sanchez González Juan Luís.
oscarrosete.com
oscarrosete.com
Un agente inteligente cumple con las siguientes características:
Autonomía: Un agente actúa sin intervención humana, dispone de algún tipo de control sobre sus acciones y su estado interno.
Comportamiento social: Un agente interactúa con otros agentes (artificiales o humanos) mediante un lenguaje de comunicación específico.
oscarrosete.com
oscarrosete.com
Un agente inteligente cumple con las siguientes características:
Reactividad: Un agente percibe su entorno y responde ante él, cambiando el estado del entorno y su propio estado interno.
Racionalidad: Un agente no se limita a actuar en respuesta a su entorno, es capaz de mostrar un comportamiento dirigido por sus objetivos.
oscarrosete.com
oscarrosete.com
1
3
2
oscarrosete.com
oscarrosete.com
Piramide de la información
Dato-> noticia-->conocimiento-->sabiduría
El software tradicional transacciona con datos y hace información/noticia.
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
Inteligencia Artificial: Investigación Científica Avanzada Centrada en Datos
Roiman Valbuena
oscarrosete.com
oscarrosete.com
Inferencia bayesiana?
An Anthropology of Robots and AI: Annihilation Anxiety and Machines
Kathleen Richardson
oscarrosete.com
oscarrosete.com
Una gran parte de la inteligencia artificial se enfoca a realizar predicciones (predecir el clima, comportamiento de clientes, epidemias, ataques cardíacos, etc).
Para lograr estas predicciones las computadores requieren tener modelos matemáticos del fenómeno que esta modelando.
What is AI – and where is it heading?
Part II: Symbolic and subsymbolic AI
Thomas Bolander
oscarrosete.com
oscarrosete.com
El modelo puede ser explicitamente representado (a través de formulas o reglas) o implícitamente representado (aprendido de experiencia sin representación simbólica de las reglas o propiedades).
El primero es denominado Inteligencia Artificial simbólica, el segundo es Inteligencia artificial subsimbólica.
What is AI – and where is it heading?
Part II: Symbolic and subsymbolic AI
Thomas Bolander
oscarrosete.com
oscarrosete.com
Symbolic vs. Subsymbolic AI
Henry Lieberman
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
Se sustenta en el cómo la biología, a través de complejas conexiones neuronales que nunca se programan, han hecho del cerebro un magnífico y espléndido aparato adaptativo de procesamiento de información.
Se extiende a la inteligencia computacional cuando aborda la genética y la biología evolutiva para mimetizar.
lógica difusa, redes neuronales.
Inteligencia Artificial: Investigación Científica Avanzada Centrada en Datos
Roiman Valbuena
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
Refleja el aspecto fisiológico del comportamiento humano o animal.
Modelan comportamientos inteligentes asentados en la mecánica de la vida y de la mente, además de los estados de probabilidades de pensamientos que en esta mente se procesan. Interacción con otros agentes.
Swarm intelligence (Inteligencia de enjambres)
Inteligencia Artificial: Investigación Científica Avanzada Centrada en Datos
Roiman Valbuena
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
Se creo un escenario mental para una escala que midiese los grados de inteligencia de un agente.
Inteligencia Artificial: Investigación Científica Avanzada Centrada en Datos
Roiman Valbuena
oscarrosete.com
oscarrosete.com
Los investigadores de otras ciencias entregan los datos al ingeniero del conocimiento para que determine el tipo de IA más adecuada a los objetivos que pretender ser alcanzados, sus inferencias estarán soportadas en las distribuciones estadísticas de los datos, tratando de transformarlos en información útil.
oscarrosete.com
oscarrosete.com
Existen múltiples arquitecturas que pueden seleccionarse, tales como, la lógica difusa, redes neuronales, sistemas expertos, algoritmos evolutivos, red híbrida (neuro-difusa), sistema experto neural, inteligencia de enjambres, entre otras
Debe de ser congruente con los datos y evaluar técnicas de minería de datos.
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
Tarea 1.
oscarrosete.com
En equipos, investiguen, debatan al respecto y lleguen a una explicación conjunta de los siguientes tipos de agentes inteligentes.
Deberá generarse una presentación
Clasificar de acuerdo a su inteligencia y capacidad
Simple Reflex Agents
Model Based Reflex Agents
Goal Based Agents
Utility based Agents
Learning Agents
Clasificación opcional
video adjunto a partir de 16:32
oscarrosete.com
oscarrosete.com
oscarrosete.com
1.1. Encuadre del curso
1.2. Introducción a los Sistemas Inteligentes
1.3. Agentes y búsqueda
1.4. Teorema de Bayes
15%
25%
Subir archivo(s) en python actividad de blackboard.
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
Un agente inteligente es el conjunto de componentes de Hardware y software que es capaz de realizar una o varias actividades cognitivas determinadas.
Usualmente ligamos el termino inteligencia a la demostración o posibilidad de resolver un problema.
Lógica computacional
Martín Rubio Fernando, Paniagua Aris Enrique, Sanchez González Juan Luís.
Un agente inteligente cumple con las siguientes características:
Autonomía: Un agente actúa sin intervención humana, dispone de algún tipo de control sobre sus acciones y su estado interno.
Comportamiento social: Un agente interactúa con otros agentes (artificiales o humanos) mediante un lenguaje de comunicación específico.
oscarrosete.com
Un agente inteligente cumple con las siguientes características:
Reactividad: Un agente percibe su entorno y responde ante él, cambiando el estado del entorno y su propio estado interno.
Racionalidad: Un agente no se limita a actuar en respuesta a su entorno, es capaz de mostrar un comportamiento dirigido por sus objetivos.
oscarrosete.com
En equipos, investiguen, debatan al respecto y lleguen a una explicación conjunta de los siguientes tipos de agentes inteligentes.
Deberá generarse una presentación
Clasificar de acuerdo a su inteligencia y capacidad
Simple Reflex Agents
Model Based Reflex Agents
Goal Based Agents
Utility based Agents
Learning Agents
Clasificación opcional
video adjunto a partir de 16:32
oscarrosete.com
oscarrosete.com
oscarrosete.com
Agente reactivo simple (o de reflejo simple)
Simple Reflex Agents
Puede considerarse el programa de agente más sencilo. Su funcionamiento se basa en seleccionar la acción sobre las percepciones actuales del agente, ignorando las percepciones históricas, para ello almacena asociaciones entrada/salida frecuentes en forma de reglas condición-acción: Si <Percepción> entonces <acción>
oscarrosete.com
Agente reactivo simple (o de reflejo simple)
Para ilustrar estas ideas, podemos utilizar el ejemplo simple de un mundo con una aspiradora, el cual consiste de un agente robótico de limpieza en un mundo que consiste de cuadrados que pueden estar sucios o limpios.
oscarrosete.com
Agente reactivo simple (o de reflejo simple)
La figura muestra una configuración con dos cuadrados, el agente percibe en que cuadro se encuentra y si hay suciedad en el cuadro. El agente comienza en un cuadrado, sus acciones posibles son moverse a la derecha, moverse a la izquierda, limpieza por succión o no realizar nada.
oscarrosete.com
Agente reactivo simple (o de reflejo simple)
Este tipo de agente selecciona acciones basado en su percepción actual, ignorando el historial de percepciones. Este agente de limpieza por vació es un agente reactivo simple ya que su decisión esta basada únicamente en su posición actual y si existe sociedad.
oscarrosete.com
Enfoque generalizado
Un enfoque mas flexible y general requeriría un interpretador de reglas condicion-accion y después generar conjunto de reglas para un objetivo especifico
Se utilizan rectángulos para denotar el estado actual de toma de decisiones del agente y óvalos para representar la información utilizada en la toma de decisiones.
oscarrosete.com
Agente reactivo basado en modelo
Model Based Reflex Agents
En gran cantidad de ocasiones un agente no podrá tomar una decisión teniendo en cuenta una única percepción, porque esta no proporciona toda la información necesaria, es por ello necesario emplear estados que de alguna forma guarden información sobre las percepciones históricas o que ya no son observables. Además se necesita información sobre como evoluciona el mundo, independiente del agente.
oscarrosete.com
Enfoque generalizado
La percepción actual esta combinada con el estado interno previo para generar una descripción actualizada del estado actual, basado en el modelo del agente acerca del funcionamiento del mundo.
oscarrosete.com
Enfoque generalizado
La sección interesante es la función UPDATE-STATE, la cual es responsable de crear una nueva descripción interna del estado.
Posteriormente selecciona una acción de la misma manera que el agente reactivo simple.
oscarrosete.com
Agente reactivo basado en objetivos o metas
Goal Based Agents
Surgen porque con los estados no es suficiente para tomar una decisión, ya que ésta muchas veces depende de cual es la misión del agente. Por tanto se requiere información sobre el objetivo o meta del agente. En este tipo de agentes, para decidir que acción de las posibles llevar a cabo, utiliza una descripción de las metas a alcanzar.
Utilizados en búsqueda y planificación.
oscarrosete.com
Agente reactivo basado en objetivos o metas
Por ejemplo en un cruce de calle/empalme, un taxi puede dar vuelta a la izquierda, vuelta a la derecha o irse en dirección recta. La decisión correcta dependerá de a donde se dirige. En otras palabras, adicional a su estado actual, requiere información relacionada a su meta.
oscarrosete.com
Enfoque generalizado
El programa del agente puede combinar la información de manera similar al agente basado en modelo para posteriormente seleccionar las acciones correspondientes que lo lleven a su meta.
oscarrosete.com
Agente reactivo basado en utilidad
Utility based Agents
Las metas por si solas tampoco son suficientes para dotar al agente de un comportamiento igual, ya que se puede alcanzar una meta cuando existen varias. Para garantizar la selección de la mejor meta es necesario una medida que permita comparar estados.
Esta medida se denomina utilidad. Un estado puede tener más utilidad que otra, el agente debe buscar los estados que proporcionen más utilidad.
oscarrosete.com
Agente reactivo basado en utilidad
Por ejemplo, muchas secuencias de acciones llevaran al taxi a su destino, sin embargo algunas serán mas rápidas, seguras, confiables o eficientes que otras.
oscarrosete.com
Agente reactivo basado en utilidad
Las metas solamente nos dan una distinción binaria entre un estado deseado y uno no deseado.
Una métrica (utilidad) del desempeño mas generalizada que permite la comparación entre estados del mundo observado es deseable.
oscarrosete.com
Agente reactivo basado en utilidad
Considerando que la función interna de utilidad y la métrica externa de desempeño coinciden, un agente que selecciona acciones que maximizan su utilidad sera racional de acuerdo a su métrica de desempeño externo.
oscarrosete.com
Enfoque General
Utiliza un modelo de su mondo, así como una función de utilidad que mide sus preferencias entre los estados disponibles del mundo. Entonces selecciona una acción que lo lleve a la máxima utilidad esperada.
oscarrosete.com
Agente basado en aprendizaje
Learning agents
En los escritos de Alan Turing (1950), se considera la idea de programar sus máquinas inteligentes a mano.
El método que propone es crear máquinas con capacidad de aprendizaje y enseñarles. En múltiples áreas de la inteligencia artificial, este es el método preferido para generar sistemas del estado del arte. Cualquiera de los agentes previamente descritos puede volverse uno basado en aprendizaje o no.
oscarrosete.com
Agente basado en aprendizaje
La principal distinción es el elemento de aprendizaje, el cual es el responsable de realizar mejoras y el elemento de desempeño el cual es responsable de seleccionar las acciones.
El elemento de aprendizaje retroalimenta desde su critica como esta desempeñándose y determina como modificar el elemento de desempeño para mejorar en el futuro.
oscarrosete.com
Enfoque General
El elemento de desempeño que previamente se habia considerado como el agente completo puede modificarse a partir del elemento de aprendizaje para mejorar su desempeño.
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
1.1. Encuadre del curso
1.2. Introducción a los Sistemas Inteligentes
1.3. Agentes y búsqueda
1.4. Teorema de Bayes
Introducción al análisis de datos con python
Antes de iniciar análisis de datos con python, necesitamos conocer los fundamentos del análisis de datos.
Necesitamos entender el procedimiento para analizar la información.
Se fundamenta en la estadística, que nos permite describir la información, realizar predicciones y obtener conclusiones de ella.
oscarrosete.com
Fundamentos
El análisis de datos es un proceso altamente iterativo que involucra la recolección, preparación, análisis exploratorio de datos (EDA) y la obtención de conclusiones.
En la práctica, encuestas han mostrado que la preparación de la información es el 80% del trabajo.
oscarrosete.com
Fundamentos
La recolección de datos es el primer paso natural de cualquier proceso de análisis de datos.
No podemos analizar datos que no tenemos.
En realidad, cualquier análisis puede comenzar antes de tener datos, cuando decidimos que investigar o analizar tendremos que pensar en que tipo de datos debemos recolectar que serán útiles para nuestro análisis.
oscarrosete.com
Fundamentos
Mientras que los datos pueden venir de cualquier fuente, algunas comunes son:
oscarrosete.com
oscarrosete.com
Fundamentos
Estamos rodeados de información, las posiblidades son infinitas de recolección. lo importante es asegurarnos que los datos recolectados nos permitan dar conclusiones.
oscarrosete.com
Fundamentos
Por ejemplo, si queremos determinar si las ventas de chocolate caliente son mas altas cuando la temperatura es mas baja, deberíamos recolectar datos de las ventas de chocolate caliente y las temperaturas de cada día.
Recolectar datos de que tanta distancia recorrieron para obtener el chocolate caliente, puede no ser relevante.
oscarrosete.com
Fundamentos
No hay que preocuparnos mucho de obtener la información perfecta antes de iniciar el análisis.
Las probabilidades, son que tengamos que agregar o remover algo del conjunto de datos(dataset) inicial o cambiar su formato y unir con otros datos.
Data wrangling
oscarrosete.com
Fundamentos
oscarrosete.com
Fundamentos
Data wrangling/mejora de la calidad de datos.
Es el proceso de preparación de datos y modificación a un formato útil para nuestro análisis. La realidad es que los datos pueden venir "sucios", que significa que requieren limpieza (preparación) antes de ser utilizados.
oscarrosete.com
Fundamentos
Algunas de las problemáticas usuales que podemos encontrarnos:
oscarrosete.com
Fundamentos
Algunas de las problemáticas usuales que podemos encontrarnos:
oscarrosete.com
Fundamentos
Algunas de las problemáticas usuales que podemos encontrarnos:
oscarrosete.com
Data cleansing
oscarrosete.com
Fundamentos
oscarrosete.com
Análisis exploratorio de datos
En esta etapa, utilizamos visualizaciones y un resumen estadístico para obtener un entendimiento mejorado de los datos.
Ya que nuestro cerebro es grandioso identificando patrones visuales, la visualización de datos es esencial en cualquier análisis.
oscarrosete.com
Análisis exploratorio de datos
Algunas características de los datos solo pueden ser observado en una gráfica.
Podemos mostrar como una variable de interés evoluciona en el tiempo, cuantas observaciones pertenecen a cada categorías, encontrar valores atípicos (outliers), ver distribuciones de variables continuas y discretas entre otros.
oscarrosete.com
Análisis exploratorio de datos
Cuanto estemos calculando resumen estadístico, debemos considerar el tipo de datos que recolectamos. Los datos pueden ser cuantitativos (cantidades medibles) o categóricos (descripciones, agrupaciones, categorías).
oscarrosete.com
Análisis exploratorio de datos
Los datos categóricos pueden ser ordinales, tienen un orden natural.
Podemos ordenar los niveles/categorías (por ejemplo bajo<medio<alto)
Los datos categóricos pueden ser nominales, donde asignamos un valor numérico a cada categoría tal como on=1/off=0.
oscarrosete.com
oscarrosete.com
Análisis exploratorio de datos
Los datos cuantitativos, pueden tener una escala de intervalo o una escala de razón.
La escala de intervalo se define como una escala de medición cuantitativa en la que se mide la diferencia entre dos variables.
El punto cero no tiene verdadero significado.
oscarrosete.com
oscarrosete.com
Análisis exploratorio de datos
En la escala de intervalo tenemos por ejemplo temperatura. Podemos comparar temperaturas en grados celsius entre ciudades, pero no tiene significado decir que es el doble de caliente.
Podemos comparar a través de sumas y restas.
No tiene sentido decir que 20C es el doble de temperatura que 10C, no implica el doble de agitación térmica que la segunda.
oscarrosete.com
oscarrosete.com
Análisis exploratorio de datos
Los datos de escala de razón se definen como un tipo de datos cuantitativos que se caracterizan por un punto de cero absoluto, lo que significa que no hay ningún valor numérico negativo.
Ejemplo: cero metros significa tamaño nulo, o en la escala de edades, cero años significa recién nacido.
oscarrosete.com
oscarrosete.com
Análisis exploratorio de datos
Cuentan con la misma característica de los datos de escala de intervalo, pero el cero tiene un significado.
Los valores pueden ser comparados con significado utilizando multiplicación y división.
Por ejemplo precios, tamaños y conteos.
oscarrosete.com
oscarrosete.com
Fundamentos
oscarrosete.com
Conclusiones
Tras haber recolectado los datos para nuestro análisis, limpiarlos y realizar un análisis exploratorio, es momento de dar conclusiones.
oscarrosete.com
Análisis de datos con python
Existe un "ecosistema" en python usual para el análisis de datos, en el cual se encuentran múltiples librerías involucradas.
NumPy
Procedente de "Numerical Python" (NumPy), ha sido una piedra angular del computo numérico en python.
Provee estructuras de datos, algoritmos, entre otros elementos para aplicaciones científicas.
oscarrosete.com
Pandas
Provee estructuras y funciones de alto nivel diseñadas para que el trabajo con estructuras o información tabular sea sencillo, rápido y expresivo.
Desde su arribo en 2010, ha facilitado el análisis de datos en python.
Utilizaremos dos objetos de pandas DataFrame (tabular, orientado a columnas con capacidad para etiquetado de renglones y columnas) y las Series un arreglo unidimensional con etiqueta.
oscarrosete.com
Convenciones para importar librerías
Nos permite diferenciar si es algo ya existente en python contra algo externo.
La convención de la comunidad de python es la siguiente:
Si vemos np.arange es una referencia a función arange de NumPy
oscarrosete.com
Diferencia entre función y método
Una función
Instrucciones que retornan algún resultado, existentes en alguna librería.
Método
Instrucciones que trabajan sobre un objeto generado por la librería.
oscarrosete.com
Numpy en python
Utilidad
Objetivo
oscarrosete.com
oscarrosete.com
oscarrosete.com
Fundamentos estadísticos
Estadística de una sola variable
Describe el centro de nuestra distribucion de datos. Existen 3 indicadores de tendnecia central: la media aritmética, la mediana y la moda.
Media aritmética
Tambien denominado promedio, se calcula sumando todos los valores y dividiendo entre la cantidad de datos.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
What Kinds of Data?
When I say “data,” what am I referring to exactly? The primary focus is on structured data, a deliberately vague term that encompasses many different common forms of data, such as:
• Tabular or spreadsheet-like data in which each column may be a different type (string, numeric, date, or otherwise). This includes most kinds of data commonly
stored in relational databases or tab- or comma-delimited text files.
oscarrosete.com
oscarrosete.com
Análisis de datos con python
• Multidimensional arrays (matrices).
• Multiple tables of data interrelated by key columns (what would be primary or foreign keys for a SQL user).
• Evenly or unevenly spaced time series.
This is by no means a complete list. Even though it may not always be obvious, a large percentage of datasets can be transformed into a structured form that is more suitable for analysis and modeling. If not, it may be possible to extract features from a datasetnos equivalentes)
oscarrosete.com
oscarrosete.com
Análisis de datos con python
•into a structured form. As an example, a collection of news articles could be processed into a word frequency table, which could then be used to perform sentiment
analysis.
Most users of spreadsheet programs like Microsoft Excel, perhaps the most widely used data analysis tool in the world, will not be strangers to these kinds of data.
oscarrosete.com
oscarrosete.com
pip install jupyter
En carpeta de cuadernos (cd somewhere):
jupyter notebook
En interfaz web:
new python 3
En cuaderno:
print("Este es el bloque 1")
cell--> run cell ( cell , celda , bloque terminos equivalentes)
oscarrosete.com
oscarrosete.com
En cuaderno:
print("Este es el bloque 1")
cell--> run cell (cell , celda , bloque términos equivalentes)
insert--> insert cell arriba
aparecen errores en el ide
In [3] el numero identifica el orden de ejecucion en el que ejecutamos los bloques
kernel--> interrupt o restart
Shortcut keys
shift+enter (ejecutar bloque de codigo)
ctrl+enter
En cuaderno:
markdown celll
oscarrosete.com
En cuaderno:
Mover bloques
Edit--> move cell down, move cell up
Combinar bloques
Edit-->merge cell below, merge cell above
copiar y pegar bloques con los botones
Poner nombre al cuaderno
file--> new notebook--> python 3--> nombre: analisis de sentimientos.
Shortcut keys
oscarrosete.com
oscarrosete.com
1.1. Encuadre del curso
1.2. Introducción a los Sistemas Inteligentes
1.3. Agentes y búsqueda
1.4. Teorema de Bayes
Existe un "ecosistema" en python usual para el análisis de datos, en el cual se encuentran múltiples librerías involucradas.
NumPy
Procedente de "Numerical Python" (NumPy), ha sido una piedra angular del computo numérico en python.
Provee estructuras de datos, algoritmos, entre otros elementos para aplicaciones científicas.
oscarrosete.com
Pandas
Provee estructuras y funciones de alto nivel diseñadas para que el trabajo con estructuras o información tabular sea sencillo, rápido y expresivo.
Desde su arribo en 2010, ha facilitado el análisis de datos en python.
Utilizaremos dos objetos de pandas DataFrame (tabular, orientado a columnas con capacidad para etiquetado de renglones y columnas) y las Series un arreglo unidimensional con etiqueta.
oscarrosete.com
matplotlib
Es la librería mas popular para producir gráficas y visualizaciones de dos dimensiones listas para publicarse.
Creado por John D. Hunter y actualmente mantenido por un gran grupo de desarrolladores.
Existen múltiples opciones alternativas en la actualidad.
oscarrosete.com
Paquetes de python
Utilidad
oscarrosete.com
Convenciones para importar librerías
Nos permite diferenciar si es algo ya existente en python contra algo externo.
La convención de la comunidad de python es la siguiente:
Si vemos np.arange es una referencia a función arange de NumPy
oscarrosete.com
Diferencia entre función y método
Una función
Instrucciones que retornan algún resultado, existentes en alguna librería.
Método
Instrucciones que trabajan sobre un objeto generado por la librería.
oscarrosete.com
Numpy en python
Utilidad
Objetivo
oscarrosete.com
Pandas
PanDaS=Panel Data Sets
Termino para datos multidimensionales comunes en estadistica y econometria.
Utilidad
oscarrosete.com
oscarrosete.com
Pandas
PanDaS=Panel Data Sets
Termino para datos multidimensionales comunes en estadistica y econometria..
Objetivo
oscarrosete.com
oscarrosete.com
Collect Data in Pandas
oscarrosete.com
Pandas
PanDaS=Panel Data Sets
Termino para datos multidimensionales comunes en estadistica y econometria..
Objetivo
oscarrosete.com
Introducción al análisis de datos con python
Antes de iniciar análisis de datos con python, necesitamos conocer los fundamentos del análisis de datos.
Necesitamos entender el procedimiento para analizar la información.
Se fundamenta en la estadística, que nos permite describir la información, realizar predicciones y obtener conclusiones de ella.
oscarrosete.com
Fundamentos estadísticos
Cuando queremos realizar observaciones de los datos que estamos analizando, usualmente sino es que siempre, recurrimos a la estadística.
Los datos a los que nos referimos son una muestra, observada de la población (subconjunto).
oscarrosete.com
Fundamentos estadísticos
Dos grandes categorías de la estadística son utilizadas, la estadística inferencial y la descriptiva. La descriptiva busca describir la muestra y la inferencial busca deducir algo acerca de la población, tal como su distribución.
oscarrosete.com
Fundamentos estadísticos
Usualmente, la meta del análisis es crear una historia de los datos; desafortunadamente, es muy sencillo utilizar incorrectamente la estadística.
Esto es especialmente cierto de la estadística inferencial, que es utilizada en estudios científicos para mostrar la relevancia de sus hallazgos.
Nos enfocaremos en una primera etapa en estadística descriptiva.
oscarrosete.com
Fundamentos estadísticos
Estadística descriptiva univariable implica la obtención de la información de solamente una variable.
Es utilizada para describir o resumir la información con la que trabajamos, comenzaremos con una medida de la tendencia central, que describe donde la mayor parte de nuestra información se encuentra centrada y una medida de dispersión, que indicara que tan lejos se encuentran los valores.
oscarrosete.com
Tendencia central
Describe el centro de nuestra distribución de datos. Existen 3 indicadores de tendencia central: la media aritmética, la mediana y la moda.
Media aritmética
También denominado promedio, se calcula sumando todos los valores y dividiendo entre la cantidad de datos.
oscarrosete.com
Fundamentos estadísticos
Mediana
Valor que se sitúa en la mitad de la distribución
Moda
Es el valor más frecuente de la distribución.
oscarrosete.com
Dispersión
El saber donde se encuentra el centro de la distribución nos permitirá parcialmente resumir la distribución de los datos, necesitamos saber como se encuentran los valores con respecto al centro. Tenemos múltiples indicadores relacionados.
Rango
Es la distancia entre el valor más pequeño y el más grande.
oscarrosete.com
Notas sobre el rango
El rango contara con las mismas unidades que nuestros datos. Por lo tanto a menos que dos distribuciones esten en las mismas unidades y midiendo la misma cosa, no podremos comparar sus rangos y decir que uno esta mas disperso que otro.
oscarrosete.com
Varianza
En el caso del rango, si tenemos valores atípicos, el rango sera inservible, asimismo no nos dice que tan disperso esta respecto al centro.
La varianza describe que tan retiradas las observaciones se encuentran del valor promedio.
Se denota con sigma cuadrada
Bessel's correction(n-1)
oscarrosete.com
Desviación estándar
La varianza nos da unidades cuadradas, por lo que no es útil de manera directa para describir los datos, por lo que se utiliza la desviación estandar que es la raíz cuadarada de la varianza para poder realizar comparaciones.
oscarrosete.com
Data wrangling in Pandas
oscarrosete.com
En jupyter notebook desarrollen los siguientes puntos utilizando.
Deberá subirse a blackboard el archivo .ipynb
Seleccionar y recopilar información en formato csv
Realizar un análisis descriptivo de la información (Estadística descriptiva)
Deberá realizar algún tratamiento a los datos para poder proporcionar conclusiones no evidentes en el formato csv. Por lo menos 5 conclusiones.
oscarrosete.com
En equipos comparar sus análisis de datos, seleccionar 1 temática por equipo y realizar una presentación breve (aproximadamente en 5 minutos)
Puntos a explicar:
a. Recolección de los datos
b. Análisis general de la información
c. Observaciones tras data wrangling
Nota: Agregar por lo menos 1 visualización
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
SciPy
SciPy is a collection of packages addressing a number of different standard problem domains in scientific computing.
scikit-learn
Since the project’s inception in 2010, scikit-learn has become the premier generalpurpose machine learning toolkit for Python programmers. In just seven years, it has had over 1,500 contributors from around the world. It includes submodules for such models as
oscarrosete.com
oscarrosete.com
statsmodels
statsmodels is a statistical analysis package that was seeded by work from Stanford
University statistics professor Jonathan Taylor, who implemented a number of regres‐
sion analysis models popular in the R programming language.
oscarrosete.com
1.1. Encuadre del curso
1.2. Introducción a los Sistemas Inteligentes
1.3. Agentes y búsqueda
1.4. Teorema de Bayes
Fundamentos estadísticos
Cuando queremos realizar observaciones de los datos que estamos analizando, usualmente sino es que siempre, recurrimos a la estadística.
Los datos a los que nos referimos son una muestra, observada de la población (subconjunto).
oscarrosete.com
Fundamentos estadísticos
Dos grandes categorías de la estadística son utilizadas, la estadística inferencia y la descriptiva. La descriptiva busca describir la muestra y la inferencial busca deducir algo acerca de la población, tal como su distribución.
oscarrosete.com
Vida de programador
Eres un programador con experiencia, sin embargo has tenido errores en tu código.
Después de una particular implementan complicada de un algoritmo decides hacer pruebas.
oscarrosete.com
Vida de programador
Si piensas que existe la posibilidad de que no hayan errores en el código ya estamos siendo "bayesianos"
Inferencia bayesiana es modificar tus creencias considerando la nueva evidencia, no tenemos certeza pero nos podemos sentir mas seguros de nuestro código.
oscarrosete.com
oscarrosete.com
Frecuentistas vs bayesianos
La inferencia bayesiana difiere de la estadística inferencial tradicional ya que preserva incertidumbre.
Esto en un primer acercamiento parece ser una técnica estadística equivocado ya que se busca derivar certeza de la aleatoriedad.
Se requiere analizar que es la probabilidad para el enfoque bayesiano comparado con el frecuentista.
oscarrosete.com
Frecuentistas vs bayesianos
La interpretación clásica o frecuentista asume que la probabilidad es la frecuencia con la que sucede un evento a largo plazo o el resultado de una experimentación infinita. Lo cual tiene sentido para eventos con múltiples ocurrencias.
Hay excepciones como la probabilidad de que un candidato gane las elecciones presidenciales, sin embargo, este es un evento único. Generalmente se manejan mediante escenarios alternativos
oscarrosete.com
oscarrosete.com
Frecuentistas vs bayesianos
Los bayesianos interpretan la probabilidad como una medida de la creencia o confianza en que un evento ocurra.
Una probabilidad es el resumen de una opinión.
Un individuo que asigna una creencia de 0 aun evento cree con absoluta certeza que no va a ocurrir algo, alguien que asigna 1 cree con certeza que va a ocurrir.
Refinamos predicciones a partir de nueva evidencia
oscarrosete.com
En su nivel más bajo, necesitamos saber cual es el significado y cuales son sus componentes para sustituir números y obtener el resultado de la fórmula.
Taxonomía bloom
oscarrosete.com
oscarrosete.com
En su nivel más bajo, necesitamos saber cual es el significado y cuales son sus componentes para sustituir números y obtener el resultado de la fórmula.
Taxonomía bloom
oscarrosete.com
En su nivel más bajo, necesitamos saber cual es el significado y cuales son sus componentes para sustituir números y obtener el resultado de la fórmula.
Taxonomía bloom
Central en el descubrimiento cientifico.
Herramienta clave para aprendizaje automatico e inteligencia artificial.
Treasure hunting.
oscarrosete.com
En 1988 Tommy Thompson y amigos utilizaron técnicas de búsqueda bayesianas para ubicar un barco que había permanecido hundido un siglo y medio antes.
El barco tenia en su interior millones de dolares de oro.
oscarrosete.com
Steve is described as a shy individual, very helpful, but he has little interest in other people. He likes things in their proper order, and is very detailed about his work.
Steve es muy tímido y retraído, invariablemente servicial, pero con poco interés en las personas o en el mundo de la realidad. Un alma mansa y ordenada, tiene una necesidad de orden y estructura, y una pasión por el detalle
oscarrosete.com
oscarrosete.com
La historia fue parte de un estudio realizado por los psicólogos Daniel Kahneman y Amos Tversky llamados los padres de la economia comportamental.
Ganaron un nobel y escribió el exitoso libro "thinking fast and slow".
oscarrosete.com
oscarrosete.com
El cerebro humano se fundamenta en atajos mentales y estereotipos para la toma de decisiones, lo cual puede llevarnos a conclusiones/juicios irracionales.
Lo cual puede contradecir lo que las leyes de probabilidad sugieren.
oscarrosete.com
Al decir la descripción de steve, la mayoría de la gente puede asumir ya que se alinea a sus estereotipos de lo que es un bibliotecario que el encaja en esta descripción.
De acuerdo a los psicólogos esto seria "irracional"
oscarrosete.com
El propósito no es si la gente tiene perspectivas correctas o incorrectas de las personalidades de bibliotecarios y granjeros.
oscarrosete.com
El punto es que casi ninguno incorpora información de si la razón de granjeros contra bibliotecarios en sus juicios.
En los libros previamente mencionados se menciona es una relación de 20 a 1, lo cual puede ser mayor.
oscarrosete.com
Para ser claros, no se espera que sepan información exacta de la estadística de granjeros y bibliotecarios y su personalidad.
La verdadera pregunta es si consideraron esta relación para hacer su estimado.
oscarrosete.com
“Rationality is not about knowing facts but recognizing which facts are important
Grant Sanderson 3blue1brown
oscarrosete.com
Comencemos con una muestra representativa (multiplicar por 10 la relación 20:1)
oscarrosete.com
Cuando escuchas nueva evidencia, por ejemplo la descripción de Steve, estimas probabilidad de coincidencia:
oscarrosete.com
Así que la probabilidad de que una persona seleccionada al azar sea un bibliotecario sería la siguiente:
bibliotecario dada descripción
oscarrosete.com
Así que aunque pensemos es 4 veces más probable que un bibliotecario cumpla con la descripción no sobrepasa el hecho de que hay más granjeros que bibliotecarios.
Es estadísticamente más probable que sea un granjero Steve.
Percepción de probabilidad dada la descripción
oscarrosete.com
La nueva evidencia no debería determinar tus creencias en un vacío, debería de actualizar creencias anteriores.
Debe ser bibliotecario
oscarrosete.com
Ver evidencia restringe el espacio de posibilidades y la proporción de que la hipótesis sea correcta.
Lo más importante es utilizar una versión numérica de la evidencia para actualizar nuestra creencia.
oscarrosete.com
El teorema de bayes es relevante cuando tenemos una hipótesis (steve es bibliotecario), vemos nueva evidencia (descripcion verbal de steve) y quieres saber la probabilidad de que la hipótesis sea válida dada la evidencia.
Steve es bibliotecario
Evidencia
P (Hipótesis dada evidencia)
oscarrosete.com
La probabilidad de la hipótesis dada la evidencia es llamada "probabilidad a posteriori", se determina de la siguiente manera:
oscarrosete.com
La barra vertical significa restringir solo a las posibilidades de ocurrencia donde la evidencia (E) es válida.
La probabilidad de que la hipótesis sea válida antes de la evidencia (probabilidad a priori)
oscarrosete.com
La probabilidad de que la hipótesis sea válida con la evidencia (probabilidad condicional)
La probabilidad marginal de E: la probabilidad de observar la nueva evidencia E bajo todas las hipótesis mutuamente excluyentes.
oscarrosete.com
Probabilidad de ver la evidencia y que la hipótesis sea incorrecta (probabilidad a posteriori)
oscarrosete.com
Los científicos utilizan la formula cuando analizan la manera en la que nueva información valida o invalida sus modelos.
Los programadores la utilizan al construir inteligencia artificial cuando quieres explícitamente y numéricamente modelar las creencias de una máquina.
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
Un evento es simplemente el resultado de un experimento aleatorio.
Asociamos probabilidades a los eventos al definir un evento en un espacio muestral.
Ejemplos de eventos:
oscarrosete.com
Es una colección de todos los posibles resultados de un experimento.
Esto significa que si realizamos una tarea particular una y otra vez, todos los resultados de la tarea serán enlistados en un espacio muestral.
Por ejemplo el espacio muestral para tirar un dado sería {1,2,3,4,5 y 6 }. Alguno de esos números sería el resultado al tirar el dado.
Un evento puede ser la combinación de eventos distintos.
oscarrosete.com
Podemos definir un evento (C) de obtener un 4 o un 6 al tirar el dado. Aquí el evento C es la unión de dos eventos:
Evento A= Obtener un 4
Evento B= Obtener un 6
P(C) = P(A U B)
En palabras simples podemos decir que debemos considerar la probabilidad de (A U B) cuando estamos interesados en combinar la probabilidad de dos o más eventos.
oscarrosete.com
Definamos C como el evento de obtener un múltiplo de 2 y 3 al tirar un dado.
Evento A= Obtener un 2 al tirar un dado
Evento B= Obtener un múltiplo de 3 al tirar un dado
Evento C= Obtener un múltiplo de 2 y 3
Evento C es una intersección de los eventos A y B.
Las probabilidades son definidas a continuación:
P(C)=P(A ∩ B) ---> Región sombreada
oscarrosete.com
Digamos que tiramos un dado en una única ocasión
Evento A= Obtener un múltiplo de 3
Evento B= Obtener un múltiplo de 5
Queremos que ambos eventos A y B ocurran simultáneamente
Encontremos los sub-espacios para los eventos A y B
Evento A={3,6}
Evento B={5}
Espacio muestral={1,2,3,4,5,6}
No hay escenario en el que sucedan simultáneamente.
oscarrosete.com
Supongamos que tenemos dos eventos
Si la ocurrencia del evento A no afecta la ocurrencia del evento B, estos eventos son llamados eventos independientes.
Algunos ejemplos
oscarrosete.com
En el caso de la probabilidad de P( A ∩ B) = P(A) * P(B)
supongamos que ganamos un juego de seleccionar una canica roja de un jarrón que contiene 4 rojas y 3 negras y si obtenemos cara al tirar una moneda.
Evento A= Obtener canica roja
Evento B= Obtener cara
P(A)=4/7 P(B)=1/2
Al ser independientes:
P(A ∩ B) = P(A)*P(B)
P(A ∩ B) = (4/7) * (1/2)= 2/7
oscarrosete.com
Asumamos evento A como obtener una canica roja del jarron. Dejamos la canica afuera del jarron y obtenemos una segunda canica.
Las probabilidades del segundo caso no seran las mismas para el segundo escenario. Ahora tenemos una probabilidad de 3/6
La probabilidad en el segundo caso es dependiente de lo que sucedio la primer ocasión.
oscarrosete.com
La probabilidad condicional se da en investigación de experimentos donde el resultado de un experimento puede afectar el resultado de experimentaciones subsecuentes.
Intentamos calcular la probabilidad del segundo evento (evento B) dado que un primer evento (evento A) ya sucedio.
Si la probabilidad del evento cambia cuando tomamos el primer evento en consideración, podemos decir con seguridad que la probabilidad del evento B es dependiente de la ocurrencia del evento A.
oscarrosete.com
Algunos ejemplos:
oscarrosete.com
Definamos dos ventos:
Evento A la probabilidad del evento que queremos calcular
Evento B la condicion que conocemos o el evento que ha sucedido
Podemos escribir la probabilidad condicional como
La probabilidad de ocurrencia del evento A dado que el evento B ya sucedio.
oscarrosete.com
Supongamos que se obtienen dos cartas de una baraja y ganas al obtener la carta J seguido de un As (sin reemplazo).
Calculemos la probabilidad de ganar
Evento A= Obtener J P(A)=4/52
Evento B= Obtener B P(B)=4/51 (sin reemplazo)
P(A y B)= 4/52 * 4/51= 0.006
oscarrosete.com
Un grupo de investigación recolecto información anual de accidentes relacionado a las condiciones de seguimiento a reglas de tránsito.
Estaban interesados en calcular la probabilidad de tener un accidente dado que una persona siguiera las reglas de tránsito. La tabla resume los resultados.
oscarrosete.com
P (Accidente | siguio reglamento)= P(Accidente y seguir reglas)/ P(Seguir reglas)
50/2500= 0.02439024
oscarrosete.com
El desayuno de Raul son los bagels y su lunch favorito la pizza.
La probabilidad de que desayune bagel es 0.6
La probabilidad de que coma pizza en el lunch es 0.5
La probabilidad de que el haya desayunado un bagel dado que comio pizza de lonche 0.7
P (A) = 0.6
P (B) = 0.5
oscarrosete.com
Si vemos los numeros, la probabilidad de tener un bagel es diferente a la probabilidad de tener un bagel dado que tuvo pizza en el lunch. Esto significa que la probabilidad de tener un bagel es dependiente de tener una pizza en el lunch.
Ahora si queremos saber la probabilidad de comer pizza dado que desayunaste bagel necesitamos conocer el teorema de Bayes.
oscarrosete.com
El teorema de Bayes describe la probabilidad de un evento basado en el conocimiento previo de las condiciones que pueden estar relacionadas al evento.
Si sabemos la probabilidad condicional,
Podemos utilizar el teorema de Bayes para encontrar la probabilidad inversa.
oscarrosete.com
¿Cómo se llega a la deducción?
Si quisieramos calcular la probabilidad de que tengamos pizza dado que desayunamos bagel sería:
0.7 * 0.5/0.6
En una fábrica de tornillos hay 3 líneas de producción, la primera produce el 35% del total, la segunda el 40% y la tercera el resto. De la primera línea el 12% de su producción son tornillos defectuosos; de la línea 2, el 10% y de la tercera línea el 16%.
oscarrosete.com
si elegimos al azar un tornillo de toda la producción, calcula la probabilidad de que:
a) sea un tornillo defectuoso producido por la línea 1.
b) sea un tornillo no defectuoso producido por la línea 2
c) sea un tornillo defectuoso
d) si es defectuoso producido en línea 3
e) si es defectuoso producido en línea 1
oscarrosete.com
En una clinica se utiliza para predecir covid-19 una prueba con las siguientes caracteristicas:
90% verdaderos positivos
30% falsos positivos
Con base a nuestra experiencia el 20% de los que asisten a hacer la prueba tienen la enfermedad.
Probabilidad de tenerla si obtenemos resultado positivo
oscarrosete.com
Una urna A contiene 2 canicas blancas, 2 negras y 4 rojas; una urna B contiene 3 canicas blancas, 3 negras y 2 rojas; una urna C contiene 2 canicas blancas, 4 negras y 4 rojas.
Si se elige una urna al azar y luego se extrae una canica también al azar, halla la probabilidad de que:
a) la canica sea blanca
b) sea negra
c) no sea roja
d) provenga de la urna c si es blanca
oscarrosete.com
e) provenga de la urna B si es negra
f) si es roja que provenga de la urna A
g) si no es blanca que provenga de la urna b
h) si no es negra que provenga de la urna C.
Si se elige una urna al azar y luego se extrae una canica también al azar, halla la probabilidad de que:
oscarrosete.com
oscarrosete.com
En una extensión no menor a una cuartilla con sus respectivas referencias deberá investigar y desarrollar los siguientes conceptos:
Inferencia bayesiana
Naive Bayes Algorithm
Naive Bayes Classifier using Kernel Density Estimation
Adicional deberá implementar en el lenguaje de programación de su preferencia utilizando un dataset seleccionado por el estudiante un ejemplo de la implementación del naive bayes algorithm.
oscarrosete.com
oscarrosete.com
En equipos comparar sus implementaciones de naive bayes, seleccionar 1 temática por equipo y realizar una presentación breve (aproximadamente en 5 minutos)
Puntos a explicar:
a. Recolección de los datos
b. Análisis/observaciones general de la información
c. Propósito del algoritmo
c. Observaciones tras aplicar el algoritmo
Nota: Agregar por lo menos 1 visualización
En jupyter notebook desarrollen los siguientes puntos utilizando.
Deberá subirse a blackboard el archivo .ipynb
Seleccionar y recopilar información de un "Data api"
Ejemplos: https://pokeapi.co/, https://swapi.dev/, http://api.football-data.orgRealizar un análisis descriptivo de la información (Estadística descriptiva)
Deberá realizar algún tratamiento a los datos para poder proporcionar conclusiones no evidentes
Deberá agregar 4 visualizaciones, utilizar otra libreria como plotly o seaborn.
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
oscarrosete.com
En una fabrica de tornillos hay 3 lineas de producción, la primera produce el 35% del total, la segunda el 40% y la tercera el resto. De la primera linea el 12% de su producción son tornillos defectuosos; de la linea 2, el 10% y de la tercera linea el 16%.
oscarrosete.com
oscarrosete.com
si elegimos al azar un tornillo de toda la produccion, calcula la probabilidad de que:
a) sea un tornillo defectuoso producido por la linea 1.
b) sea un tornillo no defectuoso producido por la linea 2
c) sea un tornillo defectuoso
d)si es defectuoso producido en linea 3
e)si es defectuoso producido en linea 1
oscarrosete.com
oscarrosete.com
En una clinica se utiliza para predecir covid-19 una prueba con las siguientes caracteristicas:
90% verdaderos positivos
30% falsos positivos
Con base a nuestra experiencia el 20% de los que asisten a hacer la prueba tienen la enfermedad.
Probabilidad de tenerla si obtenemos resultado positivo
oscarrosete.com
oscarrosete.com
Una urna A contiene 2 canicas blancas, 2 negras y 4 rojas; una urna B contiene 3 canicas blancas, 3 negras y 2 rojas; una urna C contiene 2 canicas blancas, 4 negras y 4 rojas.
Si se elige una urna al azar y luego se extrae una canica también al azar, halla la probabilidad de que:
a) la canica sea blanca
b) sea negra
c) no sea roja
d) provenga de la urna c si es blanca
oscarrosete.com
oscarrosete.com
e) provenga de la urna B si es negra
f) si es roja que provenga de la urna A
g) si no es blanca que provenga de la urna b
h) si no es negra que provenga de la urna C.
Si se elige una urna al azar y luego se extrae una canica también al azar, halla la probabilidad de que:
oscarrosete.com
En una extensión no menor a una cuartilla con sus respectivas referencias deberá investigar y desarrollar los siguientes conceptos:
Inferencia bayesiana
Naive Bayes Algorithm
Naive Bayes Classifier using Kernel Density Estimation
Adicional deberá implementar en el lenguaje de programación de su preferencia utilizando un dataset seleccionado por el estudiante un ejemplo de la implementación del naive bayes algorithm.
oscarrosete.com
oscarrosete.com
En una extensión no menor a dos cuartillas con sus respectivas referencias deberá investigar y desarrollar los siguientes temas:
Comparativa Lógica Clásica y Lógica Difusa
Utilidad y aplicaciones de la lógica Difusa
Comparativa Control difuso y control convencional
Comparativa conjuntos certeros y conjuntos difusos.
Operaciones entre conjuntos difusos
oscarrosete.com