Modern adattárház Technológiák:

Hogyan építsünk adattárházat 2018-ban?

 

Földi Tamás - tfoldi@starschema.com - @tfoldi

Starschema ügyfélek

Szép logói mindenkinek vannak.

Miért releváns ez a modern adattárházakhoz?

Startup = Modern


Nagyvállalat = Modern, Stabil, Integrálható, Biztonságos, ...

(kockázat nélkül)

És akkor most, végre a modern adattárház technológiák

Hogyan épül fel egy adattárház?

Cloud vagy on-prem?

1. Költség
2. Technológia
3. Skálázódás

 

 

+1. Compliance

$23-40 / TB / hó

Infra ⇨  DB ⇨  Serverless  

Saját adatbázis-kezelő virtuális gépen

AWS RDS

AWS Reshift

Azure CDaaS

Google BigQuery

Amazon Aurora Serverless

Amazon Athena

"Serverless" megoldások

  • Google BigQuery
  • Amazon Athena
  • Amazon Aurora Serverless

World-scale
Nincs hagyományos üzemeltetés és infrastruktúra
Jelenlegi "high-end"

Adatkinyerés

Leválogatás

Üzleti vagy technikai szabály alapján ("Utoljára módosítva" oszlop)

 

Lassú

Csak kötegelve működik

Sok hibalehetőség

Terheli a forrásrendszert

CSV

Teljesen haszontalan, az iparág szégyene

 

Sok hibalehetőség (tizedesjel, dátumforma)

Nincs metaadat

Sok helyet foglal, lassú

 

(Azonnali segítség: SQLite, Parquet, RC, HDF5, ProtoBuf)

A Dicső Múlt

CDC.

(Change Data Capture)

FOLYAMATOS ADATKINYERÉS

Adatbázis tranzakcios logok alapján (redolog, journal, stb)

Nem kell üzleti definició

Valós idejű, de kötegelhető

Nem veszik el adat

Nem terheli a forrást

Adatintegráció,
ETL

ETL Eszköz vagy Framework?

ETL Eszközök

Vagy "rendesen, vagy sehogy":

Amint egyetlen custom SQL vagy tárolt eljárás belekerül, elveszítjük a fő értékét

Szabályzás > Teljesítmény

Lehetőleg kód generálás és ELT

Tárolt eljárások

Adatbázisban tárolni ETL kódokat nem túl jó ötlet:

  • Függőségek kezelése
  • Csoportmunka hiánya
  • Verziókezelés, deployment problémák
  • Borzasztó template-zés, nem DRY kód

 

TÉVEDÉS: A tárolt eljárás nem gyorsabb  

Program kód

Miért jobb:

  • Rengetek open soure framework (Apache Beam)
  • Jó csapatmunka
  • Verzió és változáskezelés
  • Template kezelés
  • Bővíthetőség
  • Tesztelhetőség

ETL Framework

Tárolt eljárások

Tárolt eljárások

Apropó, tesztelés

Annyira komplex nálunk a környezet, hogy mi már nem is tesztelünk

banki adattárház vezető

Minél komplexebb egy rendszer, annál jobban kell tesztelni

Validációs és teszt script


DQ Szabály

EDW

MPP

10-100TB
COLUMNAR

MPP Adatbázis

Néhány különleges képesség

Menedzselt szolgáltatás - csak felhő

Extra funkciók:

  • Time Travel
  • Zero copy clone
  • Virtuális adattárházak
  • Megosztott adattárházak

Oracle 18c In-Memory

Oracle Database In-Memory a tábla adatait egyszerre tartja sor és oszlop alapú memória tárolóban. Az optimizer a tranzakciós SQL utasításokat a sor alapún, míg az analitikusakat az oszlop alapún hajtja végre.

Speed Layer

Usability Engineering, Jakob Nielsen

Új Generációs

  • In-memory
  • Deep Analytics
  • GPU

OLAP alapú

OLAP Indexek Hadoop vagy Spark adatokon

Speed Layer

Hol érdemes kezdeni?

Köszönöm!

Földi Tamás - tfoldi@starschema.com

@tfoldi

Budapest data

By Tamas Foldi

Budapest data

  • 972