DDIA 讀書會

第二章：資料模型與查詢語言

各種 Data Model 都有其獨特的性質與優缺點，開發者應該要能夠為各種情境的應用挑選正確的資料模型

探討三個主流的 Data Model: Relational Model、Document Model、Graph Model 各自的優缺點、演進史與使用時機。

1. 應用層，資料代表現實中的資訊，like object oriented

2. XML, JSON 或關聯式資料庫的 Tables 等易於儲存的資料結構

3. 在資料庫中，上一層的 XML, JSON 都需要轉換成 bytes 的形式，才能被存在 memory 或 disk 上

4. Hardware 層級， bytes 必須被轉換成電流、磁場

層級之間定義好 API，透過 API 來溝通，將複雜實作藏於 API 之後

Relational Model 於 1970 年被提出，當時與其競爭的有 Hierarchical Model 與 Network Model，後來之所以脫穎而出主要有兩個原因：

1. 它將理應很複雜的 query 實作藏在 database 的 query optimizer 中，提供使用者簡單的 interface，使用者不用知道資料是如何被存在資料庫中或是如何被取出的

2. 多對多關聯

關係模型與文件模型

NoSQL 的誕生

1. 處理更大數據集：更強伸縮性、更高吞吐量

2. 支援一些關聯式資料庫不支援的操作

3. 更自由、更彈性：Relational Model 約束太嚴，限制太多

Probrem with Relational Model : Object Relational Mismatch

object -> table

ORM (Object Relational Mapping)

一個使用者可能有多個工作、學歷、甚至是聯絡資料, How ?

將工作、學歷、聯絡資料放到另一張 table 來儲存，這也是最常見的資料庫正規化方式
一些關聯式資料庫支援 Array 或是 JSON, XML 等儲存格式，例如 PostgreSQL。
直接將 JSON 或是 XML 格式編碼成 bytes 再儲存進資料庫的一個欄位。

JSON 格式有更好的 locality (局部性)，使用 Relational Model 必須使用多次的 Join 來關聯多個資料庫，而 JSON 中所有與此使用者相關的資訊都儲存在一起，簡單的 query 就能完成。

上面的 JSON 中 region 與 industry 都只儲存了一個 ID，而不是直接儲存字串，這樣做有幾個好處：

Duplication & Normalization & Denormalization

多對一

Relational Model -> Unique ID + Join

Document Model ->

1. 直接儲存 ex: JSON 中的 Array (denormalization，比較適合用在很少被更改的資料，因為 denormalization 會使得 update, delete 的操作變得更複雜與更沒效率)

2. 在應用層自己模擬 Join 操作（document model 通常不支援 join）

Which to choose today ?

Schemaless in document model

Schema on read : 資料的格式是隱藏、不需預先定義的，在讀出時才決定他的格式（反過來則是 schema-on-write，傳統的關係資料庫方法中，模式明確，且資料庫確保所有的資料都符合其模式）

name -> first_name, last_name

document

relational (need migration)

資料查詢語言

宣告式 (Declarative) vs 命令式 (Imperative)

SQL, CSS

SELECT * FROM animals WHERE family ='Sharks';

vs

function getSharks() {
    var sharks = [];
    for (var i = 0; i < animals.length; i++) {
        if (animals[i].family === "Sharks") {
            sharks.push(animals[i]);
        }
    }
    return sharks;
}

MapReduce

混合宣告式與命令式，由google 提出的在多臺機器上批次處理大規模的資料的一種模式 (延伸閱讀)

db.observations.mapReduce(
 function map() { // 2. 對所有符合條件 doc 執行 map
  var year = this.observationTimestamp.getFullYear();
  var month = this.observationTimestamp.getMonth() + 1; 
  emit(year + "-" + month, this.numAnimals); // 3. 輸出一個 kv pair
 },
 function reduce(key, values) { // 4. 按 key 聚集
  return Array.sum(values);    // 5. 相同 key 加和
 },
  {
  query: { family: "Sharks" }, // 1. 篩選
  out: "monthlySharkReport"    // 6. reduce 結果集
 } 
);

MongoDB Aggregate

因為 MapReduce 需要使用者自己小心的撰寫 Javascript 程式碼，雖然可以做到很複雜的操作，但對於簡單的操作來說，還是 declarative language 更適合作為資料庫的查詢語言。

db.observations.aggregate([
  { $match: { family: "Sharks" } },
  {
    $group: {
      _id: {
        year:  { $year:  "$observationTimestamp" },
        month: { $month: "$observationTimestamp" }
      },
      totalAnimals: { $sum: "$numAnimals" }
    }
  }
]);

Graph Data Model

當資料庫有很多的多對多關聯，就很適合使用 graph-like data model

- Social Graph

- Web Ranking

包含點與邊，每個點與邊也可以代表不同意義，例如 Facebook 的 social graph，其中點可能是人、地點、事件或是留言，而邊可能代表人參加的事件、事件發生的地點或是人留下的留言。

Graph Data Model

- Property Graph Model 屬性圖

- Triple Store Model 三元組儲存

Property Graph

Cypher Query Language

Cypher 是屬性圖的宣告式查詢語言，為 Neo4j 圖形資料庫而發明

CREATE
  (NAmerica:Location {name:'North America', type:'continent'}),
  (USA:Location      {name:'United States', type:'country'  }),
  (Idaho:Location    {name:'Idaho',         type:'state'    }),
  (Lucy:Person       {name:'Lucy' }),
  (Idaho) -[:WITHIN]->  (USA)  -[:WITHIN]-> (NAmerica),
  (Lucy)  -[:BORN_IN]-> (Idaho)

MATCH
  (person) -[:BORN_IN]->  () -[:WITHIN*0..]-> (us:Location {name:'United States'}),
  (person) -[:LIVES_IN]-> () -[:WITHIN*0..]-> (eu:Location {name:'Europe'})
RETURN person.name

() 代表點、[] 代表邊、: 代表邊或是點的 label、{} 內的代表 properties、-> 代表邊的方向。

SQL 中的圖查詢

在 Cypher 中，用 WITHIN*0.. “沿著 WITHIN 邊，零次或多次”。它很像正則表示式中的 * 運算子。但在 SQL 中，不知道要 join 的次數

Triple Store Model

Triple Stores 透過三元組 (subject, predicate, object) 來儲存資料，ex (KK, likes, Parker)，也可以描述 subject 的屬性，ex (KK, gender, female)。對應到圖形，subject 是點、predicate 是邊，而 object 可以是點也可以是值。

SPARQL query language

PREFIX : <urn:example:>
SELECT ?personName WHERE {
  ?person :name ?personName.
  ?person :bornIn  / :within* / :name "United States".
  ?person :livesIn / :within* / :name "Europe".
}