Najpierw robiłam webdevelopment,
teraz kocham sztuczną inteligencję :)
Raczej kierunkowskazy, mniej wyrocznie :)
Po polsku "eksploracja danych" - proces wykrywania nietrywialnych, zrozumiałych, wcześniej nieznanych i potencjalnie interesujących informacji w dużych zbiorach danych. Wykorzystywane są metody głównie z zakresu sztucznej inteligencji i machine learning, ale też statystyki czy algorytmiki.
Marketingowy "buzzword" odnoszący się do dużych zbiorów danych i operacji na nich. W praktyce Big Data możne oznaczać
data mining, albo proces zbierania, strukturalizowania
i składowania danych lub coś kompletnie innego.
Zawsze warto domagać się doprecyzowania tego terminu.
Przechowywane dane w formie surowej
praktycznie nie mają wartości.
Dopiero odpowiednio przetworzone, przeanalizowane,
sklasyfikowane stają się istotną informacją.
Tutaj przydają się techniki data miningu.
Działająca od 1997 amerykańska wypożyczalnia DVD działająca na odległość.
Od 2007 roku udostępniająca filmy i seriale przez internet.
W 2006 roku Netflix ogłosił konkurs na stworzenie systemu rekomendacji co najmniej 10% lepszego niż ich własny.
Zwycięski zespół otrzymał 1 milion dolarów,
poprawił wynik systemu o 10.06%.
Netflix dostarczył 100,480,507 ocen, ich autorami było 480,189
użytkowników, dotyczyły 17,770 filmów.
Każda z ocen wyglądała tak:
<user, movie, date of grade, grade>
Wszystkie odkrywały wewnętrzne zależności w danych.
Mogły dotyczyć: użytkowników, filmów, dat.
Na przykład:
Jeśli użytkownik "X" 13 lipca dał ocenę 5 pierwszemu
sezonowi Gilmore Girls, to 14 lipca da też 5
drugiemu sezonowi tego serialu.
Użytkownicy dający dobre oceny filmowi Avengers dadzą
też dobre oceny filmowi Iron Man.
Założony w 2004 przez czterech
studentów Harvarda serwis randkowy.
Dobór "randek" odbywa się w oparciu
o testy osobowości i quizy.
Przedstawiał wyniki analizy
data miningowej dostępnych zbiorów:
testów osobowości, quizów, ale też treści profili i zdjęć.
Z uśmiechem i patrząc w kamerę?
Albo bez uśmiechu i nie patrząc w nią?
Pozycja i otoczenie są bardzo ważne.
Panowie, brzuszek w końcu przestanie działać :)
Panie nie mają takiego problemu z dekoltem.
Our data set was chosen at random from all users in big cities, with only one profile photograph, between the ages of 18 and 32. We then lopped the most and least attractive members of the pool.
To quantify “profile success” for women, we used new messages received per active month on the site.
We had to do something different than this for guys, because [...] women send only a small fraction of the unsolicited “hellos” that men do.Spowodowana wysokim ciśnieniem w gałce ocznej.
Uszkadza nerw wzrokowy.
Nieleczona prowadzi do ślepoty.
Badajcie się co najmniej raz na 2 lata!
P-value (P-wartość) - liczbowe wyrażenie istotności statystycznej.
Jeśli p-value jest większe niż 0,05 to nie ma powodu
do odrzucenia hipotezy zerowej
(w tym przypadku hipotezy o prawidłowym wyniku),
jeśli jest mniejsze niż 0,001 to hipoteza jest odrzucana.
Zależność nie oznacza i nie dowodzi
związku przyczynowo-skutkowego.
Nieprawdziwe zależności
Liczba danych: http://poland.emc.com/about/news/press/2011/20110628-01.htm
Rekomendacje Netflix: http://techblog.netflix.com/2012/06/netflix-recommendations-beyond-5-stars.html
Zdjęcia na OkCupid.com: http://blog.okcupid.com/index.php/the-4-big-myths-of-profile-pictures/
Correlation versus causation: http://www.tylervigen.com/