Introdução a ciência de dados
Pedro Costa Ferreira
Introdução a ciência de dados
Big data; data science; Advanced Analytics; In-house production; cientista de dados; Kaggle; R software
Our goal!!!!
Nosso objetivo é discutir brevemente os conceitos de big data, data science e Business Analytics, introduzir o software R e discutir suas principais funções.
[tempo estimado: 20 horas-aula]
Regra
É preciso ter comprometimento com as atividades do curso e respeito com os demais colegas
Introdução a ciência de dados
Agenda
Introdução a ciência de dados - noite 1
X:00h - Apresentação professor + alunos (nome, empresa, o que espera do curso?) + Apresentação do curso "Análise exploratória de dados"
X+0:45h - Exercício em grupo: conceitos de Ciência de dados
X+1:30h - Primeiros comentários sobre o R + SWIRL + material de apoio + Core language
X+2:30h - coffee break
X+2:45h - Criando uma narrativa: novas (mas nem tanto) tecnologias; IOT; industrie 4.0; CDO; Ambidexterity, Emprego
Exercício em grupo
1 - Pense, individualmente, sobre as perguntas abaixo (escreva as respostas em uma folha de papel, ao final da aula, entregue ao professor) (15 min):
a - O que é ciência de dados e o que faz um cientista de dados?
b - Qual é a diferença entre um cientista de dados, um engenheiro de dados e um estatístico?
c - O que é o R? Para que serve? O que você espera do curso "Análise Exploratória de dados?"
d - Qual é a sua motivação para fazer esse curso? Como você pretende aplica-lo no seu dia a dia / empresa? (faça um plano de ação)
e - Quanto devo me dedicar para aproveitar bem esse curso? (faça um plano de ação)
2 - Formar grupos de 4 a 6 pessoas e discutir as 5 perguntas (15 min);
3 - Discussão dos tópicos em sala de aula com o professor (15 min).
Introdução a ciência de dados
Agenda
Introdução a ciência de dados - noite 2
X:00h - Core language, Packages, Summary Statistics
X+1:30h - Uma breve discussão sobre o cientista de dados
X+2:00h - coffee break
X+2:15h - Strings, import and export data + Uma breve discussão sobre os procedimentos padrões para se trabalhar com dados
X+3:45 - Exercício em grupo 2: Manipulação e Visualização de dados utilizando os pacotes do tidyverse() (grupos de até 5 pessoas)
Agenda
Introdução a ciência de dados - noite 3
X:00h - Condition and repetition structures + functions
X+1:15h - Big Data, Big problems
X+2:15h - coffee break
X+2:30h - Introdução ao Tidyverse
X+3:30h - Exercício em grupo 2: Manipulação e Visualização de dados utilizando os pacotes do tidyverse() (grupos de até 5 pessoas)
Agenda
Introdução a ciência de dados - noite 4
X:00h - Visualização: ggplot2, plotlyr, esquisse e Rmarkdown
X+2:15h - coffee break
X+2:30h - RStudio project
X+3:30h - Exercício em grupo 2: Manipulação e Visualização de dados utilizando os pacotes do tidyverse() (grupos de até 5 pessoas)
Agenda
Introdução a ciência de dados - extra
X:00h - Estatística
X+1:45h - In-house production
X+2:15h - coffee break
X+2:30h - Exercício em grupo 2: Manipulação e Visualização de dados utilizando os pacotes do tidyverse() (grupos de até 5 pessoas)
X+3:30h - Do it yourself
" Without data , you're just another person with an opinion"
William Edwards Deming
obrigado!!!
Consultoria + Cursos in company
Quem sou eu...
Doutor em Engenharia Elétrica - (Decision Support Methods) e Mestre em Economia. Co-autor dos livros "Planejamento da Operação de Sistemas Hidrotérmicos no Brasil" e "Análise de Séries Temporais em R: curso introdutório". É o primeiro e único pesquisador da América Latina a ser recomendado pela empresa RStudio Inc.
Atuou em projetos de Pesquisa e Desenvolvimento (P&D) no setor elétrico nas empresas Light S.A. (e.g. estudo de contingências judiciais), Cemig S.A, Duke Energy S.A, entre outras. Atuou como consultor em Big Data e Data Science nas empresas, Coca-Cola Brasil, Light SA, Duratex, ONS, entre outras. Ministrou cursos de estatística e séries temporais na PUC-Rio e IBMEC e em empresas como o Operador Nacional do Setor Elétrico (ONS), Petrobras e CPFL S.A.
Atualmente é professor de Econometria de Séries Temporais e Estatística, cientista chefe do Núcleo de Métodos Estatísticos e Computacionais (FGV|IBRE), coordenador do curso Big Data e Data Science (MTBr|educação) e sócio-diretor da empresa Model Thinking Br (MTBr). É também revisor de importantes journals, como Energy Policy e Journal of Applied Statistics. Principais estudos são em modelos Econométricos, Incerteza Econômica, Preços, R software e Business Analytics [e.g detecção de fraudes; HR analytics].
Website pessoal ; Linkedin ; email: pedro@modelthinkingbr.com
Introdução a Ciência de dados: agenda+exercício em grupo
By Pedro Ferreira
Introdução a Ciência de dados: agenda+exercício em grupo
- 480