R software: primeiros comentários

Prof. Pedro Costa Ferreira

R software: primeiros comentários

R software; RStudio; SWIRL; Rmarkdown

Our goal!!!!

Vamos falar do R, mostrar sua importância, indicar materiais de estudo, falar do swirl, rmarkdown, challenges etc

[tempo estimado: 1 hora-aula]

O software R

  • O software R é uma linguagem e um ambiente de desenvolvimento integrado para cálculos estatísticos e gráficos;
  • O programa permite realizar operações matemáticas simples e funções mais complexas;
  • É um software gratuito sob uma licença referida no Cran (Comprehensive R Archive Network) e está disponível em: https://cran.r-project.org/

Por que escolher o R?

  • Programadores em R estão entre os maiores salários pagos em 2014
    O'Reilly Media

Por que o R é cada vez mais usado por Data Analysts e Empresas?

  • O R foi desenvolvido, especialmente por Analistas Estatísticos, o que significa que os códigos em R requerem poucas linhas de comando (logo, menos trabalho) que códigos escritos em Java, Python ou C++;
  • O R é um projeto "aberto", o que significa ser continuamente melhorado, atualizado e expandido pela comunidade global de desenvolvedores e usuários incrivelmente apaixonados.
    David Smith, Chief Community Officer, Revolution Analytics

IEEE 2017 Top Programming Languages

Empresas que estão usando R

O software RStudio

  • O RStudio é um ambiente de desenvolvimento integrado (IDE, sigla em inglês) para o R, que funciona com a versão padrão do R;
  • Inclui recursos que permite aumentar a produtividade e é executado em todas as principais plataformas;
  • Sua interface facilita o uso do R.

Como baixar o R e o RStudio

  • Após acessar o site do CRAN, escolha o sistema operacional do seu computador: Linux, (Mac) OS X ou Windows e clique na opção base ou install R for first time;
  • A fim de aprimorar a produtividade e facilitar o uso do R, indicamos que você baixe o RStudio. Para isso, acesse o site e clique na opção Download Now;
  • Qualquer dúvida, acesse a FGV no youtube e assista o vídeo de instalação.

O pacote SWIRL no R

O pacote swirl torna divertido e fácil aprender programação em R e ciência de dados

> install.packages("swirl")
> library("swirl")
> swirl()

You're the best!

Warning

a statement or event that indicates a possible or impending danger, problem, or other unpleasant situation

Esse é o seu cérebro ao final dessa aula. Sorry!!

1

2

Vamos abrir o RStudio

Challenges 

1.a) Faça uma função que receba o tamanho dos três lados de um triângulo e retorne a frase “É triângulo" caso formem realmente um triângulo, e “Não é triangulo”  caso contrário. Lembre-se que para ser um triângulo, o comprimento de um lado nunca pode ser maior do que a soma do comprimento dos outros dois lados.

 1.b) Remova sua função do ambiente R e carregue-a novamente.

 

 

2) Faça uma função que receba uma matriz m x n qualquer A e um escalar positivo e inteiro k qualquer. A saída da função deve ser uma matriz de dimensão km x kn feita pela concatenação da matriz A ao longo das linhas e colunas, k vezes em cada direção. Lembre-se que no R o comando cbind(NULL, A) resulta no próprio A. Dica: primeiro concatene completamente em uma direção, e depois na outra.

Challenges 

3.a) Faça uma função que, dado um vetor n x 1 de observações e uma matriz n x k de variáveis explicativas, retorne o vetor beta de uma regressão linear por mínimos quadrados ordinários (MQO) com intercepto. Lembre-se que o tamanho k é variável, assim a saída também terá dimensão variável.

 

3.b) Escreva no script um possível teste para o script acima, gerando aleatoriamente os valores do vetor de observações e da matriz de variáveis explicativas. O número de variáveis explicativas (número de colunas da matriz de variáveis explicativas) deve ser aleatório também.

 

 

 

Challenges 

4.a) Faça uma função que realize N simulações de um modelo AR(1), de tamanho n, e retorne um vetor de tamanho N x 1 com apenas o n-ésimo elemento de cada simulação (última observação). O modelo AR(1) em questão é dado pela expressão abaixo:

4.b) Escreva no script o(s) comando(s) que execute(m) a função do item anterior (com N = 1000 e n = 100) e trace(m) o histograma da saída com 30 bins.
4.c) Escreva no script o(s) comando(s) que armazene(m) em um vetor ou exiba(m) na tela todos os quantis da saída que sejam múltiplos de 5, isto é, os quantis 0%, 5%, 10% etc.

"Big data do not solve the problem that has obsessed statisticians for centuries: the problem of insight, of inferring what is going on, and figuring out how we might to change a system for the better."

Tim Harford

 

 

​obrigado!!!

Consultoria + Cursos in company

Made with Slides.com