Introdução a ciência de dados

Pedro Costa Ferreira

Introdução a ciência de dados

Big data; data science; Advanced Analytics; In-house production; cientista de dados; Kaggle; R software

Our goal!!!!

Nosso objetivo é discutir brevemente os conceitos de big data, data science e Business Analytics, introduzir o software R e discutir suas principais funções.

[tempo estimado: 20 horas-aula]

Regra

É preciso ter comprometimento com as atividades do curso e respeito com os demais colegas

Introdução a ciência de dados

Agenda

Introdução a ciência de dados - noite 1

X:00h - Apresentação professor + alunos (nome, empresa, o que espera do curso?)  + Apresentação do curso "Análise exploratória de dados"

X+0:45h - Exercício em grupo: conceitos de Ciência de dados

X+1:30h - Primeiros comentários sobre o R + SWIRL + material de apoio + Core language

X+2:30h - coffee break

X+2:45h - Criando uma narrativa: novas (mas nem tanto) tecnologias; IOT; industrie 4.0; CDO; Ambidexterity, Emprego

Exercício em grupo

1 - Pense, individualmente, sobre as perguntas abaixo (escreva as respostas em uma folha de papel, ao final da aula, entregue ao professor) (15 min):

a - O que é ciência de dados e o que faz um cientista de dados? 

b - Qual é a diferença entre um cientista de dados, um engenheiro de dados e um estatístico?

c - O que é o R? Para que serve? O que você espera do curso "Análise Exploratória de dados?"

d - Qual é a sua motivação para fazer esse curso? Como você pretende aplica-lo no seu dia a dia / empresa? (faça um plano de ação)

e - Quanto devo me dedicar para aproveitar bem esse curso? (faça um plano de ação)

 

2 - Formar grupos de 4 a 6 pessoas e discutir as 5 perguntas (15 min);

 

3 - Discussão dos tópicos em sala de aula com o professor (15 min).

Introdução a ciência de dados

Agenda

Introdução a ciência de dados - noite 2

X:00h -  Core language,  Packages, Summary Statistics

X+1:30h -  Uma breve discussão sobre o cientista de dados

X+2:00h - coffee break

X+2:15h - Strings, import and export data + Uma breve discussão sobre os procedimentos padrões para se trabalhar com dados

X+3:45 - Exercício em grupo 2: Manipulação e Visualização de dados utilizando os pacotes do tidyverse() (grupos de até 5 pessoas)

 

Agenda

Introdução a ciência de dados - noite 3

X:00h -  Condition and repetition structures + functions

X+1:15h - Big Data, Big problems

X+2:15h - coffee break

X+2:30h - Introdução ao Tidyverse

X+3:30h - Exercício em grupo 2: Manipulação e Visualização de dados utilizando os pacotes do tidyverse() (grupos de até 5 pessoas)

Agenda

Introdução a ciência de dados - noite 4

X:00h -  Visualização: ggplot2, plotlyr, esquisse e  Rmarkdown

X+2:15h - coffee break

X+2:30h - RStudio project

X+3:30h - Exercício em grupo 2: Manipulação e Visualização de dados utilizando os pacotes do tidyverse() (grupos de até 5 pessoas)

Agenda

Introdução a ciência de dados - extra

X:00h -  Estatística

X+1:45h - In-house production

X+2:15h - coffee break

X+2:30h - Exercício em grupo 2: Manipulação e Visualização de dados utilizando os pacotes do tidyverse() (grupos de até 5 pessoas)

X+3:30h - Do it yourself

" Without data , you're just another person with an opinion"

William Edwards Deming

 

 

 

​obrigado!!!

Consultoria + Cursos in company

Quem sou eu...

Doutor em Engenharia Elétrica - (Decision Support Methods) e Mestre em Economia. Co-autor dos livros "Planejamento da Operação de Sistemas Hidrotérmicos no Brasil" e "Análise de Séries Temporais em R: curso introdutório". É o primeiro e único pesquisador da América Latina a ser recomendado pela empresa RStudio Inc.

Atuou em projetos de Pesquisa e Desenvolvimento (P&D) no setor elétrico nas empresas Light S.A. (e.g. estudo de contingências judiciais), Cemig S.A, Duke Energy S.A, entre outras. Atuou como consultor em Big Data e Data Science nas empresas, Coca-Cola Brasil, Light SA, Duratex, ONS, entre outras. Ministrou cursos de estatística e séries temporais na PUC-Rio e IBMEC e em empresas como o Operador Nacional do Setor Elétrico (ONS), Petrobras e CPFL S.A.

Atualmente é professor de Econometria de Séries Temporais e Estatística, cientista chefe do Núcleo de Métodos Estatísticos e Computacionais (FGV|IBRE), coordenador do curso Big Data e Data Science (MTBr|educação) e sócio-diretor da empresa Model Thinking Br (MTBr). É também revisor de importantes journals, como Energy Policy e Journal of Applied Statistics. Principais estudos são em modelos Econométricos, Incerteza Econômica, Preços, R software e Business Analytics [e.g detecção de fraudes; HR analytics].

Website pessoal ; Linkedin ; email: pedro@modelthinkingbr.com

Introdução a Ciência de dados: agenda+exercício em grupo

By Pedro Ferreira

Introdução a Ciência de dados: agenda+exercício em grupo

  • 480