Secret Sauce Partners

Adatgyűjtés, adatfeldolgozás és validálás Pythonnal
(a Data Platform csapatban)

PyData Budapest Meetup #3 (12/5/2017)

Mit csinálunk?

Online ruhaboltok vásárlóinak segítünk méretet választani

Mit csinálunk?

Online ruhaboltok vásárlóinak segítünk új ruhákat felfedezni

Mit csinálunk?

Online ruhaboltok vásárlóinak segítünk outfitet összeállítani

Mit csinálunk?

Ruhaboltok bevételét növeljük a termékeik és a vásárlók viselkedésének elemzésével

=

adatgyűjtés

adatvalidáció

adatfeldolgozás

Mit csinál a Data Platform csapat?

Mit használ a Data Platform csapat?

feeds

API

scrapy

Jupyter + pandas

cerberus

pyspark

kafka

airflow

Jupyter + pandas

+ matplotlib + ggplot + scikit-learn + ...

  • Adatelemzés interaktív, dokumentált, reprodukálható lépések mentén
  • Kommunikációs eszköz
  • Mindent ír, mindent olvas
  • Strukturált adattal dolgozik (DataFrame API)
  • A gép kapacitása a felső határ

pyspark

  • Adatfeldolgozás könnyen követhető, tesztelhető módon (beépített primitívek, UDF-ek)
  • Helyi és elosztott módban is fut
  • Mindent ír, mindent olvas (Kafka, Parquet, Redshift)
  • Strukturált adattal használjuk (DataFrame API)
  • Batch feldolgozásra használjuk, de streaming feldolgozásra is jó

API + cerberus

  • Validált, garanciákkal érkező adat
  • Bevált fejlesztési menet, tesztelt üzleti logika, CI/CD
  • Valósidejű adatfolyamot generálunk vele Kafkán
  • Elvárások támaszthatók az adattal szemben, lehet rá építeni, mert van sémája

Structured data is king

Nagykép

Fit Predictor product pipeline

Nagykép

Data Platform csapat

Fit Predictor product pipeline

Live on google.com

Köszönöm!

Kérdések?

 

@rgabo

gabor@secretsaucepartners.com

Made with Slides.com