Na czym polega kopanie w danych?

czyli wszystko co musicie wiedzieć
o Data Mining

O mnie


Najpierw robiłam webdevelopment,
teraz kocham sztuczną inteligencję :)

Plan prezentacji


  1. Definicje i wyjaśnienie pojęć.
  2. Ogólne zastosowania.
  3. Przykłady
    1. Netflix i House of Cards
    2. OKCupid.com
    3. Badania jaskry
  4. Correlation versus causation
  5. Źródła

Definicje!


Raczej kierunkowskazy, mniej wyrocznie :)

Machine Learning


Po polsku "Uczenie maszynowe" - dziedzina sztucznej inteligencji
poświęcona budowaniu systemów, które będą w stanie "uczyć się" na podstawie dostępnych danych. Wykorzystywane są w tym celu narzędzia zaczerpnięte z informatyki, robotyki, matematyki, statystyki.

Data Mining


Po polsku "eksploracja danych" - proces wykrywania nietrywialnych, zrozumiałych, wcześniej nieznanych i potencjalnie interesujących informacji w dużych zbiorach danych. Wykorzystywane są metody głównie z zakresu sztucznej inteligencji i machine learning, ale też statystyki czy algorytmiki.

Big Data


Marketingowy "buzzword" odnoszący się do dużych zbiorów danych i operacji na nich. W praktyce Big Data możne oznaczać
data mining, albo proces zbierania, strukturalizowania
i składowania danych lub coś kompletnie innego.


Zawsze warto domagać się doprecyzowania tego terminu.

Po co nam to wszystko?

Dane. Dużo danych.


Wraz z rozwojem technologii ilość danych jaką zbieramy
gwałtownie się zwiększa.

W 2011 roku utworzono 1,8 zetabajta (biliona gigabajtów) danych.

Szacuje się, że ta liczba będzie się podwajać co roku.

Dane, nie informacje.


Przechowywane dane w formie surowej
praktycznie nie mają wartości.

Dopiero odpowiednio przetworzone, przeanalizowane,
sklasyfikowane stają się istotną informacją.


Tutaj przydają się techniki data miningu.

Praktyczne zastosowania
data miningu


Działająca od 1997 amerykańska wypożyczalnia DVD działająca na odległość.


Od 2007 roku udostępniająca filmy i seriale przez internet.


Netflix Prize


W 2006 roku Netflix ogłosił konkurs na stworzenie systemu rekomendacji co najmniej 10% lepszego niż ich własny.


Zwycięski zespół otrzymał 1 milion dolarów,
poprawił wynik systemu o 10.06%.

Jak wyglądały dane?


Netflix dostarczył 100,480,507 ocen, ich autorami było 480,189
użytkowników, dotyczyły 17,770 filmów.


Każda z ocen wyglądała tak:

<user, movie, date of grade, grade>


Dostarczono też informacje o tytule filmu i jego roku wydania.

Nie dostarczono żadnych informacji o użytkownikach.

Jak wyglądały rozwiązania?


Wszystkie odkrywały wewnętrzne zależności w danych.
Mogły dotyczyć: użytkowników, filmów, dat.


Na przykład:

Jeśli użytkownik "X" 13 lipca dał ocenę 5 pierwszemu
sezonowi Gilmore Girls, to 14 lipca da też 5
drugiemu sezonowi tego serialu.


Użytkownicy dający dobre oceny filmowi Avengers dadzą
też dobre oceny filmowi Iron Man.

The House of Cards


Netflix obliczył, że ten serial zostanie hitem.
Ale nie przyznał się jak to zrobił :)

“We have a high degree of confidence in [House of Cards]
based on the director, the producer and the stars.”

“We can look at consumer data and see what the appeal
is for the director, for the stars and for similar dramas.”


Steve Swasey, VP of Corporate Communications, Netflix

The House of Cards

OkCupid.com

Założony w 2004 przez czterech
studentów Harvarda serwis randkowy.


Dobór "randek" odbywa się w oparciu
o testy osobowości i quizy.

Blog OkCupid.com


Przedstawiał wyniki analizy
data miningowej dostępnych zbiorów:
testów osobowości, quizów, ale też treści profili i zdjęć.

Jakie fotki wrzucać na profil?

Jakie fotki wrzucać na profil?


Z uśmiechem i patrząc w kamerę?

Jakie fotki wrzucać na profil?


Albo bez uśmiechu i nie patrząc w nią?

Jakie fotki wrzucać na profil?


Pozycja i otoczenie są bardzo ważne.

Jakie fotki wrzucać na profil?


Panowie, brzuszek w końcu przestanie działać :)


Jakie fotki wrzucać na profil?


Panie nie mają takiego problemu z dekoltem.

Kogo analizowano?


Our data set was chosen at random from all users in big cities, with only one profile photograph, between the ages of 18 and 32. We then lopped the most and least attractive members of the pool.



Dlaczego miary na
osiach się różniły?


To quantify “profile success” for women, we used new messages received per active month on the site.

We had to do something different than this for guys, because [...] women send only a small fraction of the unsolicited “hellos” that men do.


new incoming messages + replies to outgoing first contacts

outgoing first contacts

Badanie nerwu wzrokowego

Jaskra


Spowodowana wysokim ciśnieniem w gałce ocznej.


Uszkadza nerw wzrokowy.


Nieleczona prowadzi do ślepoty.


Badajcie się co najmniej raz na 2 lata!

Badanie GDx


Badanie GDx


Badanie HDR

Badanie HDR




Badanie HDR


Co to jest p?


P-value (P-wartość) - liczbowe wyrażenie istotności statystycznej.

Jeśli p-value jest większe niż 0,05 to nie ma powodu
do odrzucenia hipotezy zerowej
(w tym przypadku hipotezy o prawidłowym wyniku),
jeśli jest mniejsze niż 0,001 to hipoteza jest odrzucana.

Correlation versus causation


Zależność nie oznacza i nie dowodzi
związku przyczynowo-skutkowego.

Spurious correlations

Nieprawdziwe zależności


Źródła

Liczba danych: http://poland.emc.com/about/news/press/2011/20110628-01.htm
Rekomendacje Netflix: http://techblog.netflix.com/2012/06/netflix-recommendations-beyond-5-stars.html
Zdjęcia na OkCupid.com: http://blog.okcupid.com/index.php/the-4-big-myths-of-profile-pictures/
Correlation versus causation: http://www.tylervigen.com/


Made with Slides.com