淺談
Big Data
「數位革命」之後,「資料革命」登場
Google 流感趨勢
- 2009, H1N1
- 1918, 西班牙流感 - 全球五億人感染, 數千萬人喪命
- 美國疾病管制局 CDC
(Centers for Disease Control and Prevention)
-
《自然》科學期刊 (Nature)
-
幾個星期前
-
"預測" 美國在冬天即將爆發流感...
-
如何做?
-
0.5 / 30億筆搜尋關鍵字 / 天
-
比對2003 ~ 2008 CDC流感傳播資料
-
比較2007 ~ 2008資料 -> 強烈相關性
What is Big Data
- 海量資料!?
- 巨量資料!?
- 大資料!?
-
大數據
-
vs Data Mining
Big Data
- Wiki
Big Data usually includes data sets with sizes beyond the abaility of commonly-used software tools to capture, curate, manage and process the data within a tolerable elapsed time.
- Gartner
Big data in general is defined as high volume, velocity and variety information assets that demand cost-effective, innovative forms of information process for enhanced insight and decision making.
- Volume: 數據量、海量資料
- Variety: 多變性
- Velocity: 時效性, 成長量
-
(Veracity): 可靠性
-
大量(Volume)且多元(Variety)的資料,必須以高時效(Velocity)完成取得、分析、處理、保存
(,而這些資料本身必須要是可靠無虞的(Veracity))
Another Story
- 2003, 伊茲奧尼(Oren Etzioni) 搭飛機
- 預測未來機票價格漲跌趨勢
- 41天, 12000筆票價資料, 建立預測模型
- 只focus "買還是不買"!
- 不知道"為何如此" (why)
- 只知道"正是如此" (what)
Farecast
-
2000億筆訂票記錄
- up to 2012
- 適用於產品內容差異性小、價格變化大
- 被Microsoft以1.1億美元收購,整合到搜尋引擎Bing中
How Big?
- DNA定序現今只需一天可以處理30億個鹼基對
- 美股每天約成交70億股,其中約2/3是程式自動交易
-
Coursera 一年收集的教育數據,就超過了過去 5000 年所有的教育數據的總和
- Google每天處理約24PB的搜尋資料
- Facebook, YouTube, Twitter, LinkedIn , Amazon, 淘寶...
-
全世界的資料?
- 2007, 300EB (exabyte)
- 2014, ?ZB (zettabyte) up
- 摩爾定律, 1965
- 每18個月 相同成本的積體電路效能會提升一倍
- 預估持續至少到2020
讓數據說話
- 分析資料大為增加
- 不堅持一切都要精確
- 放下對於因果關係的堅持
1. 更多資料
- 『樣本 = 母體』的時代來臨
- 基礎建設漸趨成熟
- Internet、Web 2.0
- Cloud
- 穿戴裝置
- 物聯網
-
『
巨量
』指的是"完整"的資料集
2. 雜亂
-
容忍不精確(雜亂)其實可能是件好事,而不是缺點
-
有時候
「越多」會比
「品質越好」更重要
- 巨量資料分析的概念就是
數據的重點由「精確」走向
「可能性」
2. 雜亂 (cont.)
-
經典應用
- 西洋棋、自然語言分析
- 語言翻譯
- IBM Candide, 1990
- Google Translate
- 人工智慧
- Flickr, Facebook, Twitter, Google, ...
- tagging, 按「讚」或「推」的次數,時間...
3. 相關性
- 不再拘泥因果關係
- 相關性分析 (Correlation analysis)
- 做到「預測」!!
- 亞馬遜解散書評團隊
- 抓住相關性,就抓住機會
Data Storage
-
Relational Database (RDBMS)
-
Oracle, MS SQL, MySQL, ...
-
Schema, Normalization, ...
-
Complex Join, ACID, ...
-
SQL (Structured
Query Language)
-
No SQL
-
Not Only SQL
No SQL
-
No SQL 類型
- 圖學資料庫 (Graph Database)
- 文件導向的資料庫 (Document-Oriented Database)
- Key-Value Store分散式資料庫
- 記憶體快取為主的資料庫
- 常見No SQL DB
- BigTable (Google)
- Dynamo (Amazon)
- Cassandra (Facebook)
- MongoDB, Apache CouchDB, Hadoop HBase, ...
- Microsoft Azure
Google Big Data Solution
- 2003, GFS (Google File System)
- 分散式檔案系統,由數百個叢集(cluster)所組成
- 2004, MapReduce:
- Simplified Data Processing on Large Clusters
- 2006, BigTable:
- A Distributed Storage System for Structured Data
-
Big Data = MapReduce + Hadoop ???
Google MapReduce
- algorithm, framework
- map(), reduce() function
- 應用於
- search
- indexing
- sorting
- data mining / machine learning
- web site log analysis
...
Apache Hadoop
結論
- 要熟知Big Data的特性與缺點
- Big Data 正在改變我們的世界觀
- Big Data 只是工具/方法論,勿忘謙卑與人性
Made with Slides.com