Business Analytics

Tendências, desafios e oportunidades

Business Analytics

Kaggle; Julia; Python; Numpy; Tydeverse; Titanic; Lua; Anaconda; Jupyter; machine learning; etc

Our goal!!!!

Nosso objetivo é conhecer algumas das principais ferramentas de data science e incentivá-los a explorá-las.

[tempo estimado: 3 horas-aula]

Kaggle

The home of Data Science & Machine Learning

A plataforma Kaggle

Trata-se de uma das maiores plataformas de competição de análise de dados e modelagem preditiva no mundo, que a todo momento concede premiações milionárias e oportunidades de emprego únicas aos vencedores.

  • Portal é referência entre a comunidade de cientistas de dados;
  • Fornece uma gama de informações e oportunidades, seja para iniciantes ou especialistas;
  • Maior comunidade de data scientists;
  • Maior plataforma de competição de data science e machine learning do mundo.

A plataforma Kaggle

Uma plataforma para competições de modelagem preditiva

Problema

Dados

Equipe

Ferramentas

Modelo Preditivo

"Estamos fazendo ciência de dados um esporte"

A plataforma Kaggle

Em março de 2017 o Kaggle foi adquirido pela Google e em junho, o portal atingiu a marca de 1 milhão de usuários.

As competições da Kaggle envolvem problemas do mundo real e algumas pagam boas recompensas, por exemplo o desafio do algoritmo de triagem de passageiros que ofereceu um montante de US$ 1,5 milhão para melhorar a precisão dos algoritmos de previsão de ameaças do US Transportation Security Administration (TSA).

Algumas competições ativas

2018 Data Science Bowl

Mercari Price Suggestion Challenge

Prêmio

$100,000

$100,000

1.150 equipes

2.185 equipes

Encontrar os núcleos de células em imagens divergentes para impulsionar a cura de diversas doenças.
Objetivo: criar um algoritmo para automatizar a detecção de núcleos.

Objetivo: construir um algoritmo que sugira automaticamente os preços corretos dos produtos a partir de avaliações inseridas pelos usuários dos produtos.

Algumas competições ativas

Prêmio

$35,000

$25,000

1.718 equipes

519 equipes

Identificar e classificar os comentários tóxicos.
Objetivo:
construir um modelo de cabeça múltipla capaz de detectar diferentes tipos de toxicidade, como ameaças, obscenidades, insultos e ódio baseado em comentários da internet.

Toxic Comment Classification Challenge

Camera Model Identification

Identificar de qual câmera uma imagem foi tirada.
Objetivo: construir um algoritmo que identifique qual modelo de câmera capturou uma imagem usando traços intrinsecamente à esquerda na imagem.

Algumas bases de dados brasileiras em competições

  • Turistas que visitaram o Brasil entre 1989 e 2015;
  • Reembolsos dos parlamentares brasileiros;
  • Epidemia do vírus da Zika;
  • Acidentes aéreos ocorridos em território brasileiro;
  • Apólices de seguros de automóveis da seguradora Porto Seguro.

Descubra

Explore

Crie um Dataset

A plataforma Kaggle

Quais métodos de ciência de dados são mais usados?

  • Logistic Regression - 63,5%
  • Decision Trees - 49,9%
  • Random Forests - 46,4%

Quais ferramentas são as mais usadas?

 76,3%

59,2%

 53,6%

A plataforma Kaggle

Que tipo de dados são mais utilizados?

  • Relational data - 65,5%
  • Text data - 53,0%
  • Imagem data - 10,3%

Onde você encontra os dados abertos?

  • Dataset aggregator - 63,4%
  • Google Search - 33,3%
  • University/ Non-profit - 26,6%

A plataforma Kaggle

Ganhos de participar do Kaggle

  • Compartilhar códigos na forma de Kernel, os quais a comunidade pode visualizar, votar e sugerir melhorias;
  • Testar conhecimentos e aprender novas técnicas;
  • Trabalho com muitas bases de dados que são realmente difíceis de criar ou encontrar;
  • Dinheiro, no caso de ganhar a competição;
  • Grande diferencial para o currículo se é alcançada uma boa posição no ranking;
  • Emprego: vagas de emprego para Cientistas de Dados em grandes empresas.

O espaço para Kernels dentro do Kaggle é feito para exploração e compartilhamento de projetos de Data Science.
Os Kernels te permitem:

  • Encontrar uma infinidade de artigos, sobre os mais variados temas e em diversas linguagens de progamação: R, Phyton, Julia, SQLite;
  • Publicar a sua própria análise e assim receber feedbacks e dicas de outros usuários.

Código

Aprenda

Oriente

Os Kernels estão nos idiomas e bibliotecas mais comuns de ciência dos dados

Esteja exposto a novas ferramentas e técnicas

Você pode responder perguntas e deixar comentários sobre o código e resultados dos outros

A plataforma Kaggle

Organizar uma competição

Competições "InClass"

É possível organizar uma competição gratuita para seus alunos aplicarem técnicas de machine learning a problemas reais.

Problemas de Negócios

Traga a maior comunidade de cientistas de dados do mundo para consultar os seus problemas comerciais mais difíceis.

Recrutamento

Encontre a melhor equipe baseado nas competições do candidato, os códigos deles, colaboração e desempenho.

Pesquisa

Acelere sua pesquisa aplicando seu problema de aprendizagem de máquinas supervisionando para bem social em Kaggle (A organização têm que ser acadêmica, de pesquisa ou sem fins lucrativos).

Exemplo para iniciante: o clássico caso do Titanic
Uma das mais famosas competições de Machine Learning é o Naufrágio do Titanic. É preciso prever quais passageiros sobreviveram ao desastre.

Participar de uma competição
O cadastro é bem simples e rápido, você pode utilizar seu perfil de outras redes sociais.

Novo em Data Science?

Comece com um tutorial sobre a nossa competição mais popular para iniciantes, Titanic: Machine Learning from Disaster.

Construa um modelo

Obtenha os dados e use quaisquer ferramentas ou métodos que você prefira para fazer previsões.

Faça uma submissão

Carregue seu arquivo de previsão para pontuação em tempo real e um ponto na tabela de classificação.

Titanic

FORMAÇÃO EXECUTIVA FGV

BIG DATA E DATA SCIENCE

Beginners Titanic  - Kaggle

Explore ++

1. A linguagem C foi criada por Dennis Ritchie nos laboratórios da Bell Telephone em 1972;

2. C é uma linguagem extremamente popular e existem muitos compiladores C disponíveis para todas as plataforma;

3. Quer saber mais sobre a linguagem C? Acesse os links: O que é a linguagem C?; Código Fluente; Como criar um programa em linguagem C

Where does Lua come from?

Lua is designed, implemented, and maintained by a team at PUC-Rio, the Pontifical Catholic University of Rio de Janeiro in Brazil. Lua was born and raised in Tecgraf, formerly the Computer Graphics Technology Group of PUC-Rio. Lua is now housed at LabLua, a laboratory of the Department of Computer Science of PUC-Rio.

Lua is a powerful, efficient, lightweight, embeddable scripting language. It supports procedural programming, object-oriented programming, functional programming, data-driven programming, and data description.

Lua combines simple procedural syntax with powerful data description constructs based on associative arrays and extensible semantics. Lua is dynamically typed, runs by interpreting bytecode with a register-based virtual machine, and has automatic memory management with incremental garbage collection, making it ideal for configuration, scripting, and rapid prototyping.

Julia is fast!!!

With over 4.5 million users, the open source Anaconda Distribution is the easiest way to do Python data science and machine learning

  • Construção de sistemas Web com Django, Flask, Pyramid, etc.
  • Análise de dados, Inteligência Artificial, Machine Learning e etc com Numpy, Pandas, Matplotlib, etc
  • Construção de aplicativos com Kivy e Pybee
  • Construção de sistemas desktop com Tkinter, WxPython, etc.

Python é uma linguagem poderosa e divertida. Com ela você pode fazer diversas coisas como:

Jupyter notebooks são páginas visíveis num browser (Firefox, etc) que permitem misturar texto, código executável em Python, imagens, figuras etc.

Este tipo de página é um recurso que permite estudo interativo, onde o leitor pode executar e modificar código e ver os resultados sem sair da página que está lendo.

À propósito, o nome da aplicação que ativa estes notebooks vem das três linguagens de programação suportadas pelo engine:

Julia + Python + R

Spyder is the Scientific PYthon Development EnviRonment

 

It's powerful interactive development environment for the Python language with advanced editing, interactive testing, debugging and introspection features

support for large, multi-dimensional arrays and matrices, along with a large collection of high-level mathematical functions to operate on these arrays

data manipulation and analysis. In particular, it offers data structures and operations for manipulating numerical tables and time series.

It provides an object-oriented API for embedding plots into applications using general-purpose GUI toolkits like Tkinter, wxPython, Qt, or GTK+.

Tidyverse

R packages for data science

"The silicone chip will transform everything, except everything that matters, and the rest will still be up to us"

Bernard Levin, The Times (October, 1978)

"There are a lot of small problems that occurs in big data. They don't disappear because you've got lots of the stuff. They get worse."

David Spiegelhalter

"Big data do not solve the problem that has obsessed statisticians for centuries: the problem of insight, of inferring what is going on, and figuring out how we might to change a system for the better."

Tim Harford

"The worst place to develop a new business model is from within your existing business model"

Clayton Christensen

"Without data, you're just another person with an opinion"

William Edwards Deming

"In god we trust, all others must bring data"

Quem sou eu...

Doutor em Engenharia Elétrica - (Decision Support Methods) e Mestre em Economia. Co-autor dos livros "Planejamento da Operação de Sistemas Hidrotérmicos no Brasil" e "Análise de Séries Temporais em R: curso introdutório". É o primeiro e único pesquisador da América Latina a ser recomendado pela empresa RStudio Inc.

Atuou em projetos de Pesquisa e Desenvolvimento (P&D) no setor elétrico nas empresas Light S.A. (e.g. estudo de contingências judiciais), Cemig S.A, Duke Energy S.A, entre outras. Atuou como consultor em Big Data e Data Science nas empresas, Coca-Cola Brasil, Light SA, Duratex, ONS, entre outras. Ministrou cursos de estatística e séries temporais na PUC-Rio e IBMEC e em empresas como o Operador Nacional do Setor Elétrico (ONS), Petrobras e CPFL S.A.

Atualmente é professor de Econometria de Séries Temporais e Estatística, cientista chefe do Núcleo de Métodos Estatísticos e Computacionais (FGV|IBRE), coordenador do curso Big Data e Data Science (FGV|IDE) e sócio-diretor da empresa Model Thinking Br ( MTBr). É também revisor de importantes journals, como Energy Policy e Journal of Applied Statistics. Principais estudos são em modelos Econométricos, Incerteza Econômica, Preços, R software e Business Analytics [e.g detecção de fraudes; HR analytics].

Website pessoal ; Linkedin ; email: pedro@modelthinkingbr.com

Obrigado!

Business Analytics: Kaggle+R+Python+Julia+Lua+Numpy+matplotlib

By Pedro Ferreira

Business Analytics: Kaggle+R+Python+Julia+Lua+Numpy+matplotlib

  • 184