Business Analytics
tendências, desafios e oportunidades [1]
Business Analytics
Novas (mas nem tanto) tecnologias; Iot; Industrie 4.0; Ambidexterity; CDO; Advanced Analytics
Our goal!!!!
Nosso objetivo é discutir a velocidade com que as coisas estão mudando e abordar os temas: big data, data science e business analytics.
[tempo estimado: 3 horas-aula]
Mind-Boggling
Facts
Computação Cognitiva
Capacidade de computadores pensarem (quase) como seres humanos
- Uso de Inteligência Artificial.
- Necessidade de uma tecnologia que pudesse resolver problemas complexos, dinâmicos, com certo grau de incerteza e capacidade de tratar uma massa exponencial de dados.
- Como implementar um sistema cognitivo? Seleciona-se um domínio (assunto) e envolvem-se especialistas que ensinem o sistema cognitivo. O papel do ser humano é fundamental!
- Treinar o sistema através de amostras selecionadas.
Blockchain
Protocolo de comunicação que assegura autenticidade
Valor do bitcoin
Mind- Boggling facts
Código em R para obter esse gráfico
Inteligência Artificial
"I am telling you, the world's first trillionaires are going to come from somebody who masters AI and all its derivatives and applies it in ways we never thought of,“
"Whatever you are studying right now if you are not getting up to speed on deep learning, neural networks, etc., you lose,"
"We are going through the process where software will automate software, automation will automate automation."
Mark Cubarn
Mind-Boggling facts
Redes Neurais Artificiais
Artigo sobre reinforcement learning
A árvore prevê a inteligência esperada (os seres humanos têm uma inteligência de 1) de vários mamíferos, como função do tempo de gestação (em dias) e do tamanho médio da ninhada para cada espécie.
Você quer prever a inteligência de um gorila, que tem um tempo de gestação de 265 dias e um tamanho médio de ninhada de 1.
Qual o tamanho relativo do cérebro que esse modelo de árvore prevê?
Self driving trucks
Life insurance business + IoT
Como funciona:
1. Cliente acumula pontos no Vitality
2. Ganha um Vitality status (Gold, Silver, etc)
3. Aproveita os prêmios
Incentivar usuários
Recolher dados de Wearables
Analisar
Big Data
Agir sobre
os dados
The Wearables Usage Cycle in the Life Insurance Business
Sensory
Devices
Network /
Connectivity
Internet
of
Things
Data Analytics
Architecture
Improved
Decision
Power
A Internet of Things conecta bilhões de sensores e dispositivos como objetos de consumo diário e equipamentos industriais em rede
A quantidade crescente de dados produzidos por esses sensores e dispositivos conectados são, portanto, adquiridos, registrados e armazenados em redes
Internet of Things ajuda conectar o mundo físico para a Internet
A arquitetura de Data Analytics fornecerá análise em tempo real de armazenamento e transmissão de dados de sensores
A análise de dados de entradas em rede é então utilizada para uma melhor tomada de decisão, maior eficiência, novos serviços ou segmentação de clientes
Text
Indústria 4.0
Background
Primeira máquina têxtil 1784
Primeira Revolução Industrial
Através da introdução de instalações de produção mecânica com o auxílio de vapor d'água
Segunda linha de montagem Abatedouros de Cincinneti, 1870
Segunda Revolução Industrial
Através da introdução de uma divisão do trabalho e produção em massa com o auxílio da energia elétrica.
Primeiro controlador lógico programável (CLP), Modicon 084, 1969
Terceira Revolução Industrial
Através do uso de eletrônica e sistemas de TI que automatizam ainda mais a produção
Quarta Revolução Industrial
Através do uso de sistemas ciber-físicos
Grau de complexidade
Tempo
Final do século XVIII
Início do século XX
Início dos anos 1970
Hoje
1ª Revolução Industrial:
- Teve início na segunda metade do séc. XVIII na Inglaterra.
- Chegou ao Brasil apenas em meados de 1910, devido à Primeira Guerra Mundial.
2ª Revolução Industrial:
- Ocorreu no último terço do séc. XIX nos EUA.
- Só chegou ao Brasil na década de 1940 com Vargas.
3ª Revolução Industrial:
- Iniciou-se no início dos anos 1970 no Japão e outros países industrializados da Ásia.
- Chegou ao Brasil apenas em meados das décadas 1980-90.
Seria a Indústria 4.0 a oportunidade para o Brasil finalmente estar up to date com o que está sendo desenvolvido na indústria internacional?
Real-Time Networking
A Indústria 4.0 promoverá a conexão entre todas as etapas da cadeia produtiva via Internet.
Cadeias de valor rígidas serão transformadas em redes de valores altamente flexíveis [Kagermann, 2016].
Esses avanços promoverão:
- Otimização das linhas de produção.
- Customização dos produtos em tempo real.
- Ganhos de produtividade e, consequentemente, maior competitividade global e fortalecimento da indústria de transformação.
No entanto, criará também desafios e riscos como:
- Desenvolver produtos em que não há um mercado relevante.
- Segurança e soberania dos dados, armazenados em cloud.
sharing economy
Computação cognitiva
Nowcasting
web-scraping
computação quântica
Internet of Things
self-driving trucks
inteligência artificial
data economy
robots
BIG DATA
Data science
Blockchain
deep learning
IoT
machine learning
statistics
Computação cognitiva
Computação cognitiva
Computação cognitiva
Computação cognitiva
Computação cognitiva
Computação cognitiva
Internet of Things
Internet of Things
Internet of Things
Internet of Things
Internet of Things
statistics
statistics
statistics
statistics
statistics
statistics
sharing economy
sharing economy
sharing economy
Nowcasting
Nowcasting
Nowcasting
Nowcasting
Nowcasting
Nowcasting
Nowcasting
robots
robots
robots
robots
robots
robots
robots
robots
Blockchain
Blockchain
Blockchain
Blockchain
Blockchain
Blockchain
IoT
IoT
IoT
IoT
IoT
IoT
IoT
IoT
data economy
data economy
data economy
data economy
data economy
data economy
data economy
self-driving trucks
self-driving trucks
self-driving trucks
self-driving trucks
self-driving trucks
self-driving trucks
self-driving trucks
inteligência artificial
inteligência artificial
inteligência artificial
inteligência artificial
inteligência artificial
inteligência artificial
inteligência artificial
inteligência artificial
IoT
machine learning
machine learning
machine learning
machine learning
machine learning
machine learning
machine learning
computação quântica
computação quântica
computação quântica
computação quântica
computação quântica
computação quântica
deep learning
deep learning
deep learning
deep learning
Bit coin
Bit coin
Bit coin
Bit coin
Bit coin
Bit coin
Bit coin
Bit coin
Bit coin
cloud computing
cloud computing
cloud computing
cloud computing
cloud computing
cloud computing
web-scraping
web-scraping
web-scraping
web-scraping
web-scraping
Data science
Data science
Data science
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
Muitos fatos disruptivos estão acontecendo
? Perguntas
Quem irá mudar o paradigma de precificação da indústria de seguros, criando produtos mais acessíveis e universais?
Como as empresas estão pensando sobre sua logística para os próximos 10 anos?
Como serão as novas plantas de produção?
Minha empresa irá sobreviver a essa revolução digital?
Quais são as chances de eu ter o mesmo emprego daqui a 10 anos?
Como será nossa iteração com a máquina? E as vendas? [Amazon]
Qual é o insumo que está relacionado com tudo isso que falamos até agora?
DADOS
Foram produzidos mais dados nos últimos dois anos que em toda a história da humanidade
The world’s most valuable resource is no longer oil, but data
Fonte: The Economist ( http://econ.st/2pjSWDL)
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
O engraçado é que ainda não conhecemos muito bem o tema, mas o nome já ficou meio chato!!!
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
BIG DATA
"Big Data is like teenage sex;
everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it."
Mas, o que é Big Data?
Dan Ariely, Duke University
Mas, o que é Big Data?
“Nós estamos testemunhando um movimento que irá transformar completamente qualquer negócio e a sociedade. O nome que nós damos a esse movimento é Big Data e irá mudar tudo , a maneira que banco e varejistas operam, a forma que tratamos o câncer e protegemos o mundo contra o terrorismo. Não importa qual o trabalho que você está fazendo ou a indústria que você trabalha, Big Data irá transformá-lo”
Bernard Marr, 2016.
“Big Data”, pode ser entendido em termos de 3 dimensões complementares:
1
Novos paradigmas de obtenção de informações;
2
Algoritmos estatísticos concebidos em torno dos problemas de classificação, previsão e descobrimento de padrões, denominados de forma geral como algoritmos de “aprendizagem estatística” ou “aprendizado de máquina”;
3
Novas estratégias computacionais.
Pra que tantos Dados?
- Predição;
- Personalização;
- As pessoas têm interesses individuais;
- Tantas informações são passadas que o cronológico perde sentido;
- Mostrar a mesma publicidade pra mim e pra minha mãe não faz sentido;
- Queremos saber mais sobre o público;
DATA
SCIENCE ?
Data
Science
Machine
Learning
Traditional
Research
Math and
Statistics
Computer
Science/IT
Domains/Business
Knowledge
Software
Development
Qual o real ritmo da mudança?
“The world is changing faster than we can accept change.”
Bob Caspe (2015)
Evolução da tecnologia de armazenamento de dados
Não é de hoje que se fala em armazenamento de dados. Desde a pré-história a humanidade vem encontrando soluções para gravar seu conhecimento e passa-lo para as próximas gerações.
O que muitos ainda não perceberam é que estamos vivendo uma revolução, não apenas no campo de armazenamento de dados, como também na utilização dos dados para criação de valor.
Conhecido como WITCH (Wolverhampton Instrument of Teaching Computing from Harwell), este é o computador mais antigo em funcionamento. Começou a operar na década de 1950.
Pesava 2,5 toneladas e era capaz de armazenar apenas 90 números.
Foi utilizado para processamento de dados de pesquisas nucleares.
Encontra-se hoje no Museu Nacional de Computação do Reino Unido
Kingston DataTraveler HyperX Predator, lançada em 2015, é capaz de transferir até 240MB por segundo em USB 3.0
Até 1TB de armazenamento e custa cerca de US$70.
Hoje, empresas de armazenamento em nuvem, como o Dropbox, oferecem serviços com armazenamento ilimitado em planos custando a partir de US$10/mês.
Pode-se enviar arquivos a partir de qualquer dispositivo.
Tudo é feito através da Internet.
Evolução das tecnologias de Transporte e Comunicação
Século
XIX
Uma carta levaria cerca de 30 dias para atravessar o Oceano Atlântico em um navio a vapor
1922
Em 1922, Charles Lindbergh partiu de NY e pousou em Paris, se tornando a primeira pessoa a atravessar o Atlântico em 34hrs
HOJE
Menos de 100 anos depois, hoje a Internet conecta bilhões de pessoas ao redor do mundo em tempo real
Quanto tempo esses aparelhos/apps levaram para alcançar 50 milhões de usuários?
Enquete
?
?
?
75 anos
13 anos
3,5 anos
2,3 anos
19 dias
19 segundos
Porque o problema de grande parte das empresas é justamente o fato de elas não conseguirem acompanhar a velocidade da mudança!
Por que estamos falando sobre tudo isso?
Por que isso importa pra você?
Qual é a chance de sua empresa estar viva nos próximos 10 anos?
Em um panorama corporativo de constante busca por inovação e aumento da produtividade há três cenários possíveis para sua empresa:
Permanecer alheia às tendências do setor, ficar para trás e correr o risco de abrir falência;
Se reinventar constantemente, liderar a inovação e estar a frente da concorrência.
Acompanhar a mudança e correr atrás para manter-se atualizada com as demandas do mercado;
Tamanho e sucesso no passado não garantem resultado futuro!
Foram listadas entre as 500 maiores do mundo da Fortune.
Foram listadas entre as 500 maiores do mundo da Fortune.
500
500
As 500 maiores (1994 e 2004)
As 500 maiores (1955 e 2015)
153
Faliram ou foram adquiridas
130
Operaram mudanças significativas na estratégia de negócio
57
Continuam na lista
1994
2004
1955
2015
No passado...
No séc XVIII, Thomas Edson enfraqueceu o mercado de Lampião...
Em 1908 Henry Ford enfraqueceu os cocheiros...
Nos anos 1930 a TV enfraqueceu o rádio...
Hoje
Uber vs Táxi
WhatsApp & Telecom
Netflix vs TV
Tesla vs Montadora de automóveis
"40% dos negócios vão falir em 10 anos"
John Chambers, CEO da Cisco por 20 anos
Para ele, isso vai fazer a economia dar uma reviravolta gigantesca: empresas acomodadas e sem inovação vão falir, dando espaço para novas empresas alinhadas com as inovações tomarão seus lugares – tendência que já está ocorrendo com milhares de startups de tecnologia.
“40% das empresas no Reino Unido não vão existir mais substancialmente nos próximos 10 anos, o mesmo com os Estados Unidos”, disse.
Serão 50 bilhões de aparelhos conectados na Internet das Coisas em 2020 e 500 bilhões em 2030; isso vai mudar o mundo.
Qual será sua estratégia para não acabar do lado errado desses 40%?
Quais são os caminhos possíveis?
Ambidexterity
Ambidexterity
4 ingredientes (necessários, mas não suficientes) para ter sucesso
Estratégia clara que justifique a necessidade de ser ambidestro [exploitation and exploration]
Suporte e comprometimento dos C-levels
Arquitetura Ambidestra
Identidade comum: visão, valores e cultura
Estratégia clara que justifique a necessidade de ser ambidestro [exploitation and exploration]
"Ambidexterity is, by its very nature, inefficient".
Charles O’Reilly and Tushman
[Perseguir novas ideias podem (e irão) gerar payback negativo]
Se a necessidade de ser ambidestro não estiver clara, as pressões de curto prazo irão esmagar os esforços de explorar coisas novas!
Identificar os ativos e habilidades da organização que podem ser usadas como uma vantagem competitiva pela unidade de exploração.
Suporte e comprometimento dos C-levels
Sem o engajamento dos líderes da empresa, a área de "exploração" é vista como distração, ameaça ou perda de recursos e pode ser esmagada pelas demandas de curto prazo;
$$ Budget estável;
Pensar premiação que leve em conta os resultados de médio e longo prazos!
Cortar pessoas que não estão comprometidas com esta estratégia.
Supervisão e apoio da equipe sênior
Organização com certo grau de diferenciação e integração
Alinhamento operacional para compartilhar ativos
Equipe de Liderança
Unidade de Negócios
Unidade de Inovação
Unidade Operacional
Unidade Operacional
Unidade Operacional
Design Organizacional Ambidestro
Arquitetura Ambidestra
O alinhamento institucional [estrutura; processos] nas unidades de exploitation e exploration são muito diferentes, mas as duas áreas precisam "conversar" [ e.g, IT, HR, Finanças]
Identidade comum: visão, valores e cultura
"One of the big deals of ambidexterity is the inability of team to deal with the contradiction of the two area"[Michael Tushman]
Todos precisam entender que fazem parte do mesmo time (sem isso, não há cooperação!);
A empresa precisa estar preparada para conviver/coordenar (consistente e inconsistente);
É preciso estar preparado para suportar as tensões entre essas duas estratégias!
Emprego e a Nova Revolução Tecnológica
Em 2025, as máquinas inteligentes irão substituir 1 em cada 3 empregos
Emprego e a Nova Revolução Tecnológica
A razão para essa redução da necessidade de mão de obra será a adoção de sistemas ciber-físicos.
Sistemas de produção autônomos integrados à rede reduzirão não apenas a necessidade de mão de obra na produção mas também a de pessoal para operá-los e para manutenção, levando a um considerável aumento do desemprego.
Emprego e a Nova Revolução Tecnológica
Em 2013, Carl Benedikt Frey e Michael A. Osborne, professores da Universidade de Oxford, publicaram um relatório chamado "O Futuro do Emprego: quão suscetíveis são os trabalhos à informatização?".
Os autores examinaram como diferentes empregos são suscetíveis a informatização, através da implementação uma nova metodologia para estimar a probabilidade de informatização para mais de 700 ocupações detalhadas.
De acordo as estimativas, cerca de 47% do emprego total dos EUA está em risco. Embora o relatório seja específico para o mercado de trabalho dos EUA, é fácil ver como o estudo pode se aplicar em todo o mundo.
Qual é a chance de um robô tomar o seu emprego?
Você será substituído por um robô?
Rank | Profissão | Risco de Automação |
---|---|---|
1 | Atendente de Telemarkenting | 99,0% |
2 | Datilógrafo | 98,5% |
3 | Secretária | 97,6% |
4 | Gerente de Contas Financeiras | 97,6% |
5 | Pesador, Corretor ou Classificador | 97,6% |
6 | Inspetor de Rotina e Testador | 97,6% |
Ou encontrará novos caminhos?
Emprego e a Nova Revolução Tecnológica
Passo 1
Passo 2
Passo 3
Passo 4
Emprego e a Nova Revolução Tecnológica
David Autor [MIT]
IA e Humanos são complementares
IA e Humanos são concorrentes
Daniel Susskind [OXF]
Emprego e a Nova Revolução Tecnológica
A Model of Technological Unemployment [Daniel Susskind]
Universal Basic Income
Você conhece um CDO?
Chief Data Officer (CDO), é uma categoria relativamente nova de C-Level, responsável pela governança de dados de uma organização.
Essencialmente, é dever do CDO gerenciar a utilização da informação como um ativo, via mineração e processamento de dados, troca de informações e outros meios.
O CDO garante que a importância estratégica dos dados seja devidamente mantida e gerenciada em toda a organização.
Aproveitar os dados como uma vantagem competitiva
Responsabilidades do CDO
Identificar novas oportunidades
Legitimar os dados
Incentivar e inspirar mudança
Você conhece um CDO?
CDO survey 2016 [Gartner]
25% das organizações globais já contrataram um CDO, em 2019, prevê-se que esse número vá para 90%
Aproximadamente 40% dos CDOs participam regularmente dos comitês executivos;
46% estão envolvidos na geração de receitas e 70% estão envolvidos em novas iniciativas e contribuindo para o aumento da competitividade das empresas;
The 2016 Chief Data Officer survey reveals CDOs drive digital business transformation
Ainda cético sobre as transformações que estão ocorrendo?!
"Whom the gods want to destroy, they send forty years of success"
Aristóteles
Cuidado!!!
WINNER
TAKES
ALL
Business Analytics
- A maior e mais básica "necessidade" na hierarquia de analytics é a necessidade de uma coleta de dados "sólida" (Monica Rogati, 2017).
- Os dados devem ser tratados como um bem estratégico fundamental, garantindo assim a sua veracidade e a qualidade dos dados torna-se indispensável!
Princípios fundamentais para o sucesso do Analytics:
1
Begin with a strong foundation
2
3
Transforming data into insights
Garbage in, garbage out
4
Learn and optimize
5
AI and machine learning
Princípios fundamentais para o sucesso do Analytics
Não negligencie os seguintes princípios que garantem resultados bem sucedidos:
- uso de abordagens sequenciais para resolução e melhoria de problemas, uma vez que os estudos raramente são concluídos com um único conjunto de dados, mas normalmente requerem a análise sequencial de vários conjuntos de dados ao longo do tempo;
- ter uma estratégia para o projeto e para a condução da análise de dados; incluindo o pensamento sobre os objetivos de "negócios" ("pensamento estratégico");
- considerando cuidadosamente a qualidade dos dados e avaliando a data pedigree antes, durante e após a análise dos dados;
- aplicar conhecimentos sólidos (conhecer o contexto, o processo e o problema para as quais a análise será aplicada), que devem ser usados para ajudar a definir o problema, avaliar o data pedigree, orientar a análise de dados e interpretar os resultados.
Business Analytics
Business Analytics é o uso de ferramentas e técnicas para transformar os dados em insights de negócio.
Data
Data
Data
TOOLS
& TECHNIQUES
Business insight
Abordagem centrada nos dados.
Análise preditiva utilizando algoritmos analíticos avançados.
Interseção entre o negócio e a ciência de dados.
Exemplo: Big Data Analytics
Hadoop
cluster
Data warehouse
Quem está usando?
Desafios
1
Na maioria das vezes dos dados precisam de muita limpeza!
Isso às vezes pode ser uma tarefa frustante
Os dados raramente estão na forma que necessitamos.
2
Os dados são muito não estruturados!
Tudo não vem de bancos de dados ou planilhas relacionais
3
Crescimento acelerado do volume de dados
“ 90% dos dados no mundo de hoje foram criados apenas nos últimos dois anos.” (IBM)
Modelos tradicionais têm dificuldades em lidar com isso.
4
Uma boa análise não suporta um processo comercial ruim
Se o processo produzir dados ruins, a análise será sem sentido, ou mesmo prejudicial, se for usada para tomar decisões importantes
Compreensão das necessidades do negócio
Definição dos objetivos a serem alcançados
Definição dos indicadores de sucesso
Preparação para o Data Analytics
- Determinação de informações disponíveis;
- Avaliação da qualidade das informações;
- Revisões dos processos de coleta e armazenamento;
- Análise exploratória dos dados;
- Estimativa do retorno do investimento;
- Recomendação de plataforma tecnológica.
Etapas de um projeto de Big data analytics
Construção e implatação
- Configuração da plataforma tecnológica;
- Construção e validação de modelos matemáticos;
- Dashboard operacional, gerencial e estratégico;
- Specialist intelligent systems;
Ongoing
- Avaliação e acompanhamento dos resultados;
- Tratamento de oportunidades e ameaças;
- Otimização de sistemas;
Etapas de um projeto de Big data analytics
DSML and AI projects
Pitfalls you must avoid!!
Gartner, Six pitfalls to avoid when planning data science and machine learning projects. Nov, 2017.
Gartner, Six pitfalls to avoid when executing data science and machine learning projects. Feb, 2018.
Gartner, Market guide for data science and machine learning service providers. Oct, 2017
Premissas
“Data is needed to fuel digital transformation and without the knowledge of what data is available in the enterprise, business users spend their time looking for data and IT teams spend their time and resources answering routine questions about data assets,”
Ronen Schwartz, senior vice president and general manager, Big Data, Cloud and Data Integration, Informatica.
By 2020, organizations that offer users access to a curated catalog of internal and external data will derive twice as much business value from analytics investments as those that do not
By 2020, the focus within machine learning will shift from algorithms to high-value data
By 2020, more than 40% of data science tasks will be automated, resulting in increased productivity and broader usage by citizen data scientists.
Estratégia e planejamento
Desenhar o problema
Preparar
os Dados
Explorar e avaliar
Deploy
Medir e
desenvolver
DSML life cycle
Pitfalls you must avoid!!
Estratégia e Planejamento
1 - Não julgar corretamente o valor do negócio (excesso de otimismo sobre o valor do projeto);
2 - Correr para iniciar o projeto sem ter definido planos e processos;
3 - Falta de segurança e privacidade (e.g. acesso irrestrito aos dados - é preciso seguir as normas da GDPR (General Data Protection Regulation)).
Desenhar o problema
1 - Falta de credibilidade da equipe de data science com o negócio (e.g. muita preocupação com o modelo e nenhum conhecimento sobre o negócio);
2 - Métricas de sucesso intangíveis (sem métricas não é possível definir se um projeto deve seguir ou ser interrompido)
3 - Subestimar a importância do "data management" (e.g. subestimar a qualidade dos dados que serão usados).
Preparar os dados
1 - Alocar tempo e recursos insuficientes para a preparação dos dados (dados inadequados; muitas variáveis ou falta delas).
Explorar e avaliar
1 - Gerenciamento inadequado da equipe de data science (e.g. tratar os cientistas de dados como "super heróis" e subestimar os skills necessários para o projeto);
2 - Empregar ferramentas inadequadas e não se preocupar em ter algo "apresentável";
3 - Falha ao interpretar e alavancar os resultados dos modelos (é preciso encontrar um equilíbrio entre as necessidades do negócio e a interpretabilidade dos modelos).
Deploy (Implementar)
1 - Falta de processo para operacionalizar os modelos e falta de entendimento de impacto do produto no negócio;
2 - Não diferenciar desenvolvimento de implementação ao entregar o produto.
Medir e desenvolver
1 - Esquecer da manutenção e do monitoramento do produto;
"Because the world changes over time (e.g., shifts in inflation rates, seasonal changes, thieves changing their fraud patterns), model performance tends to degrade"
Os Vs do Big Data
Foi previsto para
2016 um tráfego de dados superior ao “zettabyte”, que equivale a um sextilhão de bytes, segundo a
Cisco.
Esse volume anual é maior do que a soma de todos os dados produzidos entre 1984 e 2012!
Hadoop
Variedade de fontes de onde surgem esses dados. Justamente por virem de diversos locais, os dados são em sua maioria não estruturados. Eles tem como origem as redes sociais, e-mails, etc.
15% dos dados no mundo são estruturados, diz a Gartner.
Complexidade para lidar com tantos formatos de arquivos diferenciados
4 Vs
Velocidade com que os dados são gerados e, principalmente, processados.
Muitas informações só se tornam realmente úteis se analisadas em tempo real. Exemplo: um tweet, Waze.
Com o grande volume gerado em alta velocidade, muitas informações são irrelevantes. Para isso é necessário realizar filtros e deles extrair o que realmente agrega valor.
Um em cada três líderes empresariais não confia nos dados que eles usam para tomar decisões. Além disso, um estudo afirma que o custo anual da má qualidade dos dados é de US $ 3,1 trilhões nos EUA sozinhos (IBM).
4 Vs
+ 3 novos Vs
Visualization
Variability
Value
Elasticidade
(1) Evita queda no site quando o volume de acessos aumenta de forma inesperada;
(2) permite que não desperdice dinheiro mantendo servidores muito potentes quando não há tráfego compatível;
(3) garante uma economia de tempo com monitoramento e administração de servidores.
Escalabilidade
Característica de um sistema, serviço ou processo de lidar com volumes crescentes de trabalho, mantendo performances satisfatórias mesmo diante de aumentos significativos de demanda.
Um sistema escalável deve estar preparado para suportar aumentos de carga significativos quando os recursos de hardware e software são requeridos.
Cloud computing
On Premises
Infrastructure
(as a Service)
Platform
(as a Service)
Software
(as a Service)
You manage
You manage
You manage
Managed Microsoft
Managed Microsoft
Managed Microsoft
Big data, Big problems
Excesso de falsos positivos
Correlações Espúrias
Viés amostral
Método inapropriado para selecionar os dados
1
2
3
4
Relações estranhas são facilmente superestimadas se você ignora falsos positivos
História: gravidez da filha. Statistical sorcery? There is a huge false positive issue. Os algoritmos não são infalíveis. Isso não significa que a análise de dados seja inútil, pelo contrário, pode ser muito rentável.
1. Excesso de falsos positivos
2. Correlações Espúrias
A afirmação de que a "causalidade caiu do pedestal" é aceitável se você está fazendo previsão em um ambiente estável, mas não se o mundo está mudando, ou se esperamos que ele irá mudar;
Aqui apresentamos um método de análise de um grande número de consultas de pesquisa do Google ou rastrear doenças semelhantes a influenza em uma população
certas consultas estão altamente correlacionadas
consultas de busca para detectar epidemias de gripe em áreas com uma grande população de usuários de pesquisa na web
2. Correlações Espúrias
2. Correlações Espúrias
3. Viés amostral
A promessa de que "N=All", e portanto que o viés de amostragem não importa, simplesmente não é verdade na maioria dos casos que contam;
4 . Método inapropriado para selecionar os dados
"Com dados suficientes, os números falam por si" [ with enough data, the numbers speak for themselves] - que parece irremediavelmente ingênuo em conjuntos de dados onde os padrões espúrios superam em muito as verdadeiras descobertas
Cases reais de Advanced Analytics
“It is not the strongest of the species that survives, nor the most intelligent that survives. It is the one that is the most adaptable to change”
Chales Darwin
Walmart
How Big Data is used to drive supermarket performance
Walmart é a maior rede varejista do mundo, com 2 milhões de empregados e 20.000 lojas em 28 países;
Em 2004, quando o furacão Sandy atingiu a costa dos EUA, eles descobriram que insights inesperados poderiam surgir quando os dados são estudados como um todo, mais que quando o individuo é estudado individualmente;
Com o objetivo de atender a demanda por materiais de emergência em face a aproximação do furacão Sandy algumas surpresas estatísticas emergiram;
Além dos materiais de emergência, observaram que a venda do produto Strawberry Pop Tart aumentou consideravelmente em algumas localidades;
Em 2012, com a aproximação do furacão France’s o Walmart aumentou o estoque desse produto em diversas unidades e as vendas explodiram.
Governo do Reino Unido mais Automatizado
Utilização de softwares livres como o R e o Python para modernizar relatórios de estatísticas oficiais.
Processo de produção estatística atual no UK:
Banco
de
Dados
Software
Estatístico
Planilhas
Word
PDF
Uso do Rmarkdown na automatização dos relatórios
Banco
de
Dados
Impacto da Automação no Reino Unido
Estima-se que 10 milhões de empresas no UK serão perdidas para as máquinas nos próximos 15 anos
Até cerca de 30% dos empregos existentes no Reino Unido são suscetíveis à automação da robótica e da Inteligência Artificial (AI) no início da década de 2030.
A probabilidade de automação parece ser maior em setores como transporte, fabricação e atacado e varejo, e menor em educação, saúde e trabalho social.
A automação também aumentará a produtividade e a riqueza, levando a compensar ganhos de trabalho adicionais em outros lugares da economia, mas a desigualdade de renda pode aumentar.
Netflix
How Netflix Measures You to Maximize Their Revenue
Sistema de recomendações é resultado de um complexo algoritmo. A ideia principal é que as sugestões sejam “exatamente a série ou filme que se encaixa no seu humor atual ”.
No segundo semestre de 2017, a Netflix completa 6 anos de operação no Brasil. No último ano, a empresa dobrou o número de assinantes, superando a segunda maior operadora de TV por assinatura e a terceira rede de TV aberta do país.
No final de 2016 já contava com cerca de 94 milhões de assinantes no mundo, com 6 milhões de brasileiros.
Netflix
How Netflix Measures You to Maximize Their Revenue
A Netflix também começou com aluguel de filmes em DVD. Qual foi a principal diferença das duas empresas?
“A capacidade de antecipar a mudança e reinventar o negócio.”
Em 2000, a Blockbuster deixou de comprar a Netflix por U$ 50 milhões e veio a falência 10 anos depois.
Parceria entre Big Data e Netflix
Desde então, a Netflix investe periodicamente em conhecer melhor seus clientes e lançar os melhores produtos. Como exemplo disso foi o investimento na versão americana de House of Cards em 2011, sucesso de bilheteria dois anos depois com seu lançamento.
Korbell team, 2009
Netflix
How Netflix Measures You to Maximize Their Revenue
Essa parceria não é de agora…
Em 2006, foi criado um concurso para quem desenvolvesse o melhor algoritmo de previsão de avaliações de clientes. Três anos depois, a equipe ganhadora melhorou em 10% o atual modelo que a empresa utlizava [ Singular Value Decomposition(SVD) and Restricted Boltzmann Machines (RBM)];
Lifetime value case study: gastar em marketing é uma ótima maneira de crescer seu negócio. Entender o valor de vida dos clientes que vêm de diferentes canais de marketing.
Netflix
How Netflix Measures You to Maximize Their Revenue
Coletar dados comportamentais do cliente e prescrever alternativas para aumento de audiência;
Prever tendências para o próximo conteúdo desejado;
Implementar novos conteúdos a partir do perfil do usuário;
Considerar dados das mídias sociais como uma importante fonte de informação;
Com um percentual de incerteza apurado, prever o desempenho da audiência de um canal;
Netflix
How Netflix Measures You to Maximize Their Revenue
Customer Analytics
Em média, o tempo de vida de um assinante da Netflix é de 25 meses. E de acordo com eles, o valor de vida de um cliente é de US $ 291,25.
Mas como?
A importância do valor vitalício
Maximizando o valor vitalício
Aquisição de clientes
A importância do valor vitalício
Maximizando o valor vitalício
Aquisição de clientes
Você precisa saber o valor da vida dos seus clientes. Sem esse número, é impossível otimizar seu lucro.
Para maximizar sua receita por cliente, você não pode apenas rastreá-los em grupo, mas também deve acompanhar cada cliente individualmente.
Você precisa entender o valor de vida dos clientes que vêm de diferentes canais de marketing. Isso irá ajudá-lo a determinar o quanto você pode adquirir dos clientes de cada canal, com base no potencial real de receita de longo prazo deles.
"The worst place to develop a new business model is from within your existing business model"
Clayton Christensen
"Without data, you're just another person with an opinion"
William Edwards Deming
"In god we trust, all others must bring data"
Quem sou eu...
Doutor em Engenharia Elétrica - (Decision Support Methods) e Mestre em Economia. Co-autor dos livros "Planejamento da Operação de Sistemas Hidrotérmicos no Brasil" e "Análise de Séries Temporais em R: curso introdutório". É o primeiro e único pesquisador da América Latina a ser recomendado pela empresa
RStudio Inc.
Atuou em projetos de Pesquisa e Desenvolvimento (P&D) no setor elétrico nas empresas Light S.A. (e.g. estudo de contingências judiciais), Cemig S.A, Duke Energy S.A, entre outras. Atuou como consultor em Big Data e Data Science nas empresas, Coca-Cola Brasil, Light SA, Duratex, ONS, entre outras. Ministrou cursos de estatística e séries temporais na PUC-Rio e IBMEC e em empresas como o Operador Nacional do Setor Elétrico (ONS), Petrobras e CPFL S.A.
Atualmente é professor de Econometria de Séries Temporais e Estatística, cientista chefe do Núcleo de Métodos Estatísticos e Computacionais (FGV|IBRE), coordenador do curso Big Data e Data Science (FGV|IDE) e sócio-diretor da empresa Model Thinking Br (
MTBr). É também revisor de importantes journals, como Energy Policy e Journal of Applied Statistics. Principais estudos são em modelos Econométricos, Incerteza Econômica, Preços, R software e Business Analytics [e.g detecção de fraudes; HR analytics].
Website pessoal ; Linkedin ; email: pedro@modelthinkingbr.com
Obrigado!
Novas (mas nem tanto) tecnologias; IOT; industrie 4.0; CDO; Advanced Analytics
By Pedro Ferreira
Novas (mas nem tanto) tecnologias; IOT; industrie 4.0; CDO; Advanced Analytics
- 432