Big Data + Data Science
Truth or Dare?
Rayssa Küllian

=
Sobre mim
- Partner / Head of Analytics and Insights (eGenius Founders)
- Instrutora de Big Data (Semantix)
- Mestranda em Ciência da Computação (IME/USP)
- Oito anos de experiência em TI: Unicsul, BASF, ACE Group, Ericsson, IBM Brazil Software Lab., boo-box, Genesys, IBM Watson


Agenda
- Big Data
- Data Science Inteligência Artificial
- Como entrei nesse universo?
- O que já fiz?
- Carreiras
- O que estudar?



O que é?
...pelo começo?
Começar...

o que NÃO é?





O que
realmente
é então?

o que é?
volume
velocidade
variedade


o que é?
VOLUME


volume


1.44 MB
3 TB

volume
Petabyte, Exabyte, Zettabyte, Yottabyte, Xenottabyte, Shilentnobyte, DOMEGEMEGROTTEBYTE(!)...


volume
YEAR CAPACITY (GB) GB COST (USD)
1997 2.1 $157
2004 200 $1.05
2014 3.000 $0.036

o que é?
VELOCIDADE


60sec na web?


60sec na web?



60sec na web?



60sec na web?





92% DOS DADOS
foram criados nos DOIS últimos anos
o que é?
VARIEDADE


de onde vem?








de onde vem?










4vs?
VERACIDADE

?

tecnologias
- Apache Foundation
- Open Source
- Armazenamento e processamento distribuído
- Maiores colaboradores: Facebook, Yahoo, Google
-
-
-
-


tecnologias










players




BI x Big Data
?


+confusão
- Cookies
- Flash cookies
- Web Beacon
-
-
-

+confusão
Privacidade
Seriously
?
?!

Data Science?


Inteligência Artificial


Data Science
O que é?
...pelo começo?
Começar...

o que NÃO é?


o que NÃO é?




o que NÃO é?


o que NÃO é?


o que NÃO é?


o que NÃO é?



o que NÃO é?


o que é?

"Automatização de atividades que associamos ao pensamento humano, como a tomada de decisões, a resolução de problemas, o aprendizado..."
- Bellman, 1978
-

história

- Gestação: 1943-1955
Macculloch, Pitts, Turing ("Computing Machinery and Intelligence")
- Nascimento: 1956
McCarthy, Minsky, Shannon e Rochester
- Indústria: 1980
Digital Equipment Corporation, Du Pont

áreas
+
Machine Learning
Natural Language
Processing



natural language processing
A habilidade de um computador em interpretar linguagem natural



- Chatbot
- Correção gramatical
- Tradução automática
- Análise de personalidades
- Autenticação pela escrita
- Análise de sentimentos
- Detecção de spam
natural language processing

natural language processing
Part of Speech (PoS) Tagging
I
eat
pizza
with
a
fork
.
noun phrase
NOUN
PREPOSITION
NOUN
VERB
SUBJECT
OBJECT



ferramentas
NLTK (Natural Language Toolkit)



machine learning

"Campo de estudo que dá ao computador a habilidade de aprender sem ser explicitamente programado."
- Arthur Samuel, 1959
-

algoritmos
supervisionado
não-supervisionado
aprendizado indutivo

por reforço
supervisionado
supervisionado
classificação
regressão

não-supervisionado
não-supervisionado
agrupamento
sumarização
associação

machine learning

- Predição de taxas de cura de pacientes com diferenças doenças
- Detecção de fraudes em cartões de crédito
- Sugestões de produtos similares em eCommerce
- Validação de autenticidade de reviews na Amazon
- Predição de revoltas populares
- Observatório da Dengue (UFMG)
ferramentas







linguagens


Como entrei nesse universo?


minha história

minha história


minha história



+
+

minha história



+
+

minha história




minha história

O que eu já fiz?




minha carreira


minha carreira


IBM Watson
minha carreira


IBM Bluemix
minha carreira

minha carreira




Carreiras

carreiras
- Big Data Consultant
- Hadoop Developer
- Hadoop Administrator
- Data Analyst
- Data Scientist

carreiras




O que estudar?

cursos

- Cloudera Apache HBase
- Cloudera Search com Apache Solr
- Cloudera Developer for Apache Hadoop
- Cloudera Data Analytics with Hive, Pig and Impala
- Cloudera Administrator for Apache Hadoop
- Cloudera Developer for Apache Spark

cursos




cursos


- Machine Learning (Stanford)
- Natural Language Processing (Stanford)
certificações



pós



pós




pós

mestrado
MBA
x



Rayssa Küllian
contato@rayssak.com.br
g+,
Big Data + Artificial Intelligence = Truth or Dare?
By Rayssa Küllian
Big Data + Artificial Intelligence = Truth or Dare?
Overview de Big Data e Data Science: o que exatamente é cada área e quais são os "mitos" que as cercam. Data Science é realmente uma nova área? O que a difere de Inteligência Artificial? Não abordaremos apenas a base teórica, mas também tecnologias/ferramentas e oportunidades de carreiras atualmente no Brasil. Palavras-chave: Big Data, Data Science, Inteligência Artificial, Aprendizado de Máquina, Processamento Natural de Linguagem, Sistemas Colaborativos.
- 8,096

