Modern adattárház Technológiák:

Hogyan építsünk adattárházat 2018-ban?

Földi Tamás - tfoldi@starschema.com - @tfoldi

Starschema ügyfélek

Szép logói mindenkinek vannak.

Miért releváns ez a modern adattárházakhoz?

Startup = Modern

Nagyvállalat = Modern, Stabil, Integrálható, Biztonságos, ...

(kockázat nélkül)

És akkor most, végre a modern adattárház technológiák

Hogyan épül fel egy adattárház?

Cloud vagy on-prem?

1. Költség
2. Technológia
3. Skálázódás

+1. Compliance

$23-40 / TB / hó

Infra ⇨ DB ⇨ Serverless

Saját adatbázis-kezelő virtuális gépen

AWS RDS

AWS Reshift

Azure CDaaS

Google BigQuery

Amazon Aurora Serverless

Amazon Athena

"Serverless" megoldások

Google BigQuery
Amazon Athena
Amazon Aurora Serverless

World-scale
Nincs hagyományos üzemeltetés és infrastruktúra
Jelenlegi "high-end"

Adatkinyerés

Leválogatás

Üzleti vagy technikai szabály alapján ("Utoljára módosítva" oszlop)

Lassú

Csak kötegelve működik

Sok hibalehetőség

Terheli a forrásrendszert

CSV

Teljesen haszontalan, az iparág szégyene

Sok hibalehetőség (tizedesjel, dátumforma)

Nincs metaadat

Sok helyet foglal, lassú

(Azonnali segítség: SQLite, Parquet, RC, HDF5, ProtoBuf)

A Dicső Múlt

CDC.

(Change Data Capture)

FOLYAMATOS ADATKINYERÉS

Adatbázis tranzakcios logok alapján (redolog, journal, stb)

Nem kell üzleti definició

Valós idejű, de kötegelhető

Nem veszik el adat

Nem terheli a forrást

Adatintegráció,
ETL

ETL Eszköz vagy Framework?

ETL Eszközök

Vagy "rendesen, vagy sehogy":

Amint egyetlen custom SQL vagy tárolt eljárás belekerül, elveszítjük a fő értékét

Szabályzás > Teljesítmény

Lehetőleg kód generálás és ELT

Tárolt eljárások

Adatbázisban tárolni ETL kódokat nem túl jó ötlet:

Függőségek kezelése
Csoportmunka hiánya
Verziókezelés, deployment problémák
Borzasztó template-zés, nem DRY kód

TÉVEDÉS: A tárolt eljárás nem gyorsabb

Program kód

Miért jobb:

Rengetek open soure framework (Apache Beam)
Jó csapatmunka
Verzió és változáskezelés
Template kezelés
Bővíthetőség
Tesztelhetőség

ETL Framework

Tárolt eljárások

Apropó, tesztelés

Annyira komplex nálunk a környezet, hogy mi már nem is tesztelünk

banki adattárház vezető

Minél komplexebb egy rendszer, annál jobban kell tesztelni

Validációs és teszt script

⇩
DQ Szabály

EDW

MPP

10-100TB
COLUMNAR

MPP Adatbázis

Néhány különleges képesség

Menedzselt szolgáltatás - csak felhő

Extra funkciók:

Time Travel
Zero copy clone
Virtuális adattárházak
Megosztott adattárházak

Oracle 18c In-Memory

Oracle Database In-Memory a tábla adatait egyszerre tartja sor és oszlop alapú memória tárolóban. Az optimizer a tranzakciós SQL utasításokat a sor alapún, míg az analitikusakat az oszlop alapún hajtja végre.

Speed Layer

Usability Engineering, Jakob Nielsen

Új Generációs

In-memory
Deep Analytics
GPU

OLAP alapú

OLAP Indexek Hadoop vagy Spark adatokon

Speed Layer

Hol érdemes kezdeni?

Köszönöm!

Földi Tamás - tfoldi@starschema.com

@tfoldi

Budapest data

By Tamas Foldi

Budapest data

1,281

Modern adattárház Technológiák:

Hogyan építsünk adattárházat 2018-ban?

Starschema ügyfélek

Szép logói mindenkinek vannak.

Miért releváns ez a modern adattárházakhoz?

Startup = Modern

Nagyvállalat = Modern, Stabil, Integrálható, Biztonságos, ...

(kockázat nélkül)

És akkor most, végre a modern adattárház technológiák

Hogyan épül fel egy adattárház?

Cloud vagy on-prem?

1. Költség 2. Technológia 3. Skálázódás

$23-40 / TB / hó

Infra ⇨ DB ⇨ Serverless

"Serverless" megoldások

World-scale Nincs hagyományos üzemeltetés és infrastruktúra Jelenlegi "high-end"

Adatkinyerés

Leválogatás

CSV

CDC.

FOLYAMATOS ADATKINYERÉS

Adatintegráció, ETL

ETL Eszköz vagy Framework?

ETL Eszközök

Tárolt eljárások

Program kód

ETL Framework

Tárolt eljárások

Tárolt eljárások

Apropó, tesztelés

Annyira komplex nálunk a környezet, hogy mi már nem is tesztelünk

Minél komplexebb egy rendszer, annál jobban kell tesztelni

Validációs és teszt script

⇩ DQ Szabály

EDW

MPP

10-100TB COLUMNAR

MPP Adatbázis

Néhány különleges képesség

Oracle 18c In-Memory

Speed Layer

Új Generációs

OLAP alapú

Speed Layer

Hol érdemes kezdeni?

Köszönöm!

Budapest data

More from Tamas Foldi

1. Költség
2. Technológia
3. Skálázódás

World-scale
Nincs hagyományos üzemeltetés és infrastruktúra
Jelenlegi "high-end"

Adatintegráció,
ETL

⇩
DQ Szabály

10-100TB
COLUMNAR