Basic Data Science

Ujang Fahmi

Agenda

  1. Data Sains
  2. Pengenalan Dasar R
  3. Mengenal Bahasa Pemrograman
  4. Alur Kerja dalam R: Projects

  5. Fungsi-fungsi Dasar

  6. Jenis-jenis data yang umum digunakan

Data Sains

"The art of extracting insight from data"

Siapa data scientist?

Masalah umum yang dipecahkan:

1. Klustering

2. Klasifikasi

3. Prediksi

Clustering

Classification

Classification

Forcasting

Pembagian Data Scientist

Data Engineers

Data Analyst/ ML Engineer

Data Visualisation

Alat untuk DS

Pengenalan Dasar

R is a programming language and free software environment for statistical computing and graphics supported by the R Foundation for Statistical Computing. The R language is widely used among statisticians and data miners for developing statistical software and data analysis

R Studio

Sebuah tampilan antar muka untuk membuat, menjalankan dan menyimpan skrip, proyek, dan data yang diolah menggunan R

Alur Kerja di R

Data Mentah

Folder/Dir

Impor

Pre-Processing

Tidy Data

Analisis

Data Untuk Visualisasi

Visualisasi

Dasbor

Setiap kali mengerjakan sesuatu di R atau RStudio sebaiknya diawali dengan membuat project terlebih dahulu, yaitu membuat folder spesifik hanya untuk satu proyek/pekerjaan

Fungsi Umum

Nama Kegunaan Contoh
paste(), paste0() Digunakan untuk mem-paste object di r ke dalam objek lain d1 <- "kata"
d2 <- "presiden"
d3 <- paste0(d1 + d2)
if dan else Digunakan untuk memerintah skrip menjalankan sesuatu berdasarkan kondisi Tim_A = 10
Tim_B = 6
if (Tim_A > Tim_B) {
print("Tim A Menang")
}
for loop Digunakan untuk melakukan iterasi berdasarkan sebuah/lebih kondisi -

Jenis Data

Jenis Definisi Contoh
Vector a <- c(1,2,5.3,6,-2,4) # numeric vector
Data Frame Kumpulan vector dengan dimensi yang sama mydata <- data.frame(id,name,score)
Lists Tipe data bertingkat w <- list(name="Fred", age=25, height=159.7)

Tugas akhir

No Tugas Hari ke-
1 Menentukan topik yang akan di analisis (e.g: Ekonomi, Pendidikan, Aplikasi, etc.) 1
2 Mencari sumber dan mendapatkan data yang sesuai dengan topik (sumber data: kaggle.com, worldbank, bps, etc.) 2
3 Mendesain langkah yang akan dilakukan dari Mulai pre-processing hingga visualisasi 3
4 Membuat dan melakukan Exploratory Data Analytics 4
5 Memilih dan membuat visualisasi temuan (Variabel yang penting/tidak semua variabel) 5
6 Membuat slide untuk mempresentasikan proses dan temuan hasil analisis 5

Impor, Ekspor Data

next...

Made with Slides.com