Big Data + Data Science
Truth or Dare?
Rayssa Küllian
=
Sobre mim
- Partner / Head of Analytics and Insights (eGenius Founders)
- Instrutora de Big Data (Semantix)
- Mestranda em Ciência da Computação (IME/USP)
- Oito anos de experiência em TI: Unicsul, BASF, ACE Group, Ericsson, IBM Brazil Software Lab., boo-box, Genesys, IBM Watson
Agenda
- Big Data
- Data Science Inteligência Artificial
- Como entrei nesse universo?
- O que já fiz?
- Carreiras
- O que estudar?
O que é?
...pelo começo?
Começar...
o que NÃO é?
O que
realmente
é então?
o que é?
volume
velocidade
variedade
o que é?
VOLUME
volume
1.44 MB
3 TB
volume
Petabyte, Exabyte, Zettabyte, Yottabyte, Xenottabyte, Shilentnobyte, DOMEGEMEGROTTEBYTE(!)...
volume
YEAR CAPACITY (GB) GB COST (USD)
1997 2.1 $157
2004 200 $1.05
2014 3.000 $0.036
o que é?
VELOCIDADE
60sec na web?
60sec na web?
60sec na web?
60sec na web?
92% DOS DADOS
foram criados nos DOIS últimos anos
o que é?
VARIEDADE
de onde vem?
de onde vem?
4vs?
VERACIDADE
?
tecnologias
- Apache Foundation
- Open Source
- Armazenamento e processamento distribuído
- Maiores colaboradores: Facebook, Yahoo, Google
-
-
-
-
tecnologias
players
BI x Big Data
?
+confusão
- Cookies
- Flash cookies
- Web Beacon
-
-
-
+confusão
Privacidade
Seriously
?
?!
Data Science?
Inteligência Artificial
Data Science
O que é?
...pelo começo?
Começar...
o que NÃO é?
o que NÃO é?
o que NÃO é?
o que NÃO é?
o que NÃO é?
o que NÃO é?
o que NÃO é?
o que é?
"Automatização de atividades que associamos ao pensamento humano, como a tomada de decisões, a resolução de problemas, o aprendizado..."
- Bellman, 1978
-
história
- Gestação: 1943-1955
Macculloch, Pitts, Turing ("Computing Machinery and Intelligence")
- Nascimento: 1956
McCarthy, Minsky, Shannon e Rochester
- Indústria: 1980
Digital Equipment Corporation, Du Pont
áreas
+
Machine Learning
Natural Language
Processing
natural language processing
A habilidade de um computador em interpretar linguagem natural
- Chatbot
- Correção gramatical
- Tradução automática
- Análise de personalidades
- Autenticação pela escrita
- Análise de sentimentos
- Detecção de spam
natural language processing
natural language processing
Part of Speech (PoS) Tagging
I
eat
pizza
with
a
fork
.
noun phrase
NOUN
PREPOSITION
NOUN
VERB
SUBJECT
OBJECT
ferramentas
NLTK (Natural Language Toolkit)
machine learning
"Campo de estudo que dá ao computador a habilidade de aprender sem ser explicitamente programado."
- Arthur Samuel, 1959
-
algoritmos
supervisionado
não-supervisionado
aprendizado indutivo
por reforço
supervisionado
supervisionado
classificação
regressão
não-supervisionado
não-supervisionado
agrupamento
sumarização
associação
machine learning
- Predição de taxas de cura de pacientes com diferenças doenças
- Detecção de fraudes em cartões de crédito
- Sugestões de produtos similares em eCommerce
- Validação de autenticidade de reviews na Amazon
- Predição de revoltas populares
- Observatório da Dengue (UFMG)
ferramentas
linguagens
Como entrei nesse universo?
minha história
minha história
minha história
+
+
minha história
+
+
minha história
minha história
O que eu já fiz?
minha carreira
minha carreira
IBM Watson
minha carreira
IBM Bluemix
minha carreira
minha carreira
Carreiras
carreiras
- Big Data Consultant
- Hadoop Developer
- Hadoop Administrator
- Data Analyst
- Data Scientist
carreiras
O que estudar?
cursos
- Cloudera Apache HBase
- Cloudera Search com Apache Solr
- Cloudera Developer for Apache Hadoop
- Cloudera Data Analytics with Hive, Pig and Impala
- Cloudera Administrator for Apache Hadoop
- Cloudera Developer for Apache Spark
cursos
cursos
- Machine Learning (Stanford)
- Natural Language Processing (Stanford)
certificações
pós
pós
pós
mestrado
MBA
x
Rayssa Küllian
contato@rayssak.com.br
g+,
Big Data + Artificial Intelligence = Truth or Dare?
By Rayssa Küllian
Big Data + Artificial Intelligence = Truth or Dare?
Overview de Big Data e Data Science: o que exatamente é cada área e quais são os "mitos" que as cercam. Data Science é realmente uma nova área? O que a difere de Inteligência Artificial? Não abordaremos apenas a base teórica, mas também tecnologias/ferramentas e oportunidades de carreiras atualmente no Brasil. Palavras-chave: Big Data, Data Science, Inteligência Artificial, Aprendizado de Máquina, Processamento Natural de Linguagem, Sistemas Colaborativos.
- 8,015