淺談
Big Data


     

「數位革命」之後,「資料革命」登場

Google Flu Trends



Google 流感趨勢

  • 2009, H1N1
    • 1918, 西班牙流感 - 全球五億人感染, 數千萬人喪命
  • 美國疾病管制局 CDC
     (Centers for Disease Control and Prevention)

  • 《自然》科學期刊 (Nature)
    • 幾個星期前
    • "預測" 美國在冬天即將爆發流感...
  • 如何做?
    • 0.5 / 30億筆搜尋關鍵字 / 天
    • 比對2003 ~ 2008 CDC流感傳播資料
    • 比較2007 ~ 2008資料  -> 強烈相關性

What is Big Data

  • 海量資料!? 
  • 巨量資料!? 
  • 大資料!?

  • 大數據

  • vs Data Mining

Big Data

  • Wiki
    Big Data usually includes data sets with sizes beyond the abaility of commonly-used software tools to capture, curate, manage and process the data within a tolerable elapsed time.

  • Gartner
    Big data in general is defined as high volume, velocity and variety information assets that demand cost-effective, innovative forms of information process for enhanced insight and decision making.
  • Volume:  數據量、海量資料
  • Variety: 多變性
  • Velocity: 時效性, 成長量
  • (Veracity):  可靠性

  • 大量(Volume)且多元(Variety)的資料,必須以高時效(Velocity)完成取得、分析、處理、保存 (,而這些資料本身必須要是可靠無虞的(Veracity))

Another Story

  • 2003, 伊茲奧尼(Oren Etzioni) 搭飛機
  • 預測未來機票價格漲跌趨勢
  • 41天, 12000筆票價資料, 建立預測模型
    • 只focus "買還是不買"!
    • 不知道"為何如此" (why)
    • 只知道"正是如此" (what)

Farecast

  • 2000億筆訂票記錄
  • up to 2012
    • 75%準確率
    • 每筆交易平均省50美元
  • 適用於產品內容差異性小、價格變化大

  • 被Microsoft以1.1億美元收購,整合到搜尋引擎Bing中

How Big?

  • DNA定序現今只需一天可以處理30億個鹼基對
  • 美股每天約成交70億股,其中約2/3是程式自動交易
  • Coursera 一年收集的教育數據,就超過了過去 5000 年所有的教育數據的總和
  • Google每天處理約24PB的搜尋資料
  • Facebook, YouTube, Twitter, LinkedIn , Amazon, 淘寶...

  • 全世界的資料?
    • 2007, 300EB (exabyte)
    • 2014, ?ZB (zettabyte) up
  • 摩爾定律, 1965
    • 每18個月 相同成本的積體電路效能會提升一倍
    • 預估持續至少到2020

讓數據說話

  • 更多、更亂,但有用最重要!!

  • 資訊分析的三大改變
  1. 分析資料大為增加
  2. 不堅持一切都要精確
  3. 放下對於因果關係的堅持

1. 更多資料

  • 樣本 = 母體』的時代來臨
    • N = all
    • 抽樣的缺失
  • 基礎建設漸趨成熟
    • Internet、Web 2.0
    • Cloud
    • 穿戴裝置
    • 物聯網
  • 巨量 』指的是"完整"的資料集
    • 相對的、非絕對
    • 資料量不一定很"大"

2. 雜亂

  • 容忍不精確(雜亂)其實可能是件好事,而不是缺點

  • 有時候 「越多」會比 「品質越好」更重要

  • 巨量資料分析的概念就是
    數據的重點由「精確」走向 「可能性」

2. 雜亂 (cont.)

  • 經典應用
    • 西洋棋、自然語言分析
    • 語言翻譯
      • IBM Candide, 1990
      • Google Translate
    • 人工智慧
      • 圖靈測試
      • 日本軟體銀行 發售家用機器人
  • Flickr, Facebook, Twitter, Google, ...
    • tagging, 按「讚」或「推」的次數,時間...

3. 相關性

  • 不再拘泥因果關係
    • 只要清楚發現「正是如此」 不用在乎 「為何如此」
  • 相關性分析 (Correlation analysis)
  • 做到預測」!!

  • 亞馬遜解散書評團隊
    • Netflix
    • Walmart
      ...

  • 抓住相關性,就抓住機會
    • 提早發出故障警示、生病預警、預防犯罪!? ...

Data Storage

  • Relational Database (RDBMS)
    • Oracle, MS SQL, MySQL, ...
    • Schema, Normalization, ...
    • Complex Join, ACID, ...

  • SQL (Structured  Query Language)

  • No SQL
    • 統稱的名詞,泛指RDBMS的資料庫技術

  • Not Only SQL

No SQL

  • No SQL 類型
    • 圖學資料庫 (Graph Database)
    • 文件導向的資料庫 (Document-Oriented Database)
    • Key-Value Store分散式資料庫
    • 記憶體快取為主的資料庫

  • 常見No SQL DB
    • BigTable (Google)
    • Dynamo (Amazon)
    • Cassandra (Facebook)
    • MongoDB, Apache CouchDB, Hadoop HBase, ...
    • Microsoft Azure

Google Big Data Solution

  • 2003, GFS (Google File System)
    • 分散式檔案系統,由數百個叢集(cluster)所組成

  • 2004, MapReduce:
    - Simplified Data Processing on Large Clusters

  • 2006, BigTable:
    - A Distributed Storage System for Structured Data

  • Big Data = MapReduce + Hadoop ???

Google MapReduce

  • algorithm, framework
    • 協調機器資源配置並處理的程式輸入、輸入與執行
  • map(), reduce() function
    • 使用者可以把心力放在定義Map和Reduce函數

  • 應用於
    • search
    • indexing
    • sorting
    • data mining / machine learning
    • web site log analysis
      ...


Apache Hadoop

水能載舟 亦能覆舟

  • 隱私權保護問題
    • 不可能真正匿名
    • 凡走過必留下痕跡
      • Facebook

  • 預防犯罪?

  • 資料獨裁
    • 眼中只有數字的官僚

結論

  • 要熟知Big Data的特性與缺點
  • Big Data 正在改變我們的世界觀
  • Big Data 只是工具/方法論,勿忘謙卑與人性


淺談Big Data

By ML Lee

淺談Big Data

  • 794