Google Big Queryを使ってみよう

CALIL Inc.

Ryuuji Yosimoto

Code4Lib 2015

図書館の大規模データ分析に

Problem

データ分析がしたい

お金がない

人がいない

面倒なことはやらない

Hadoop is too expensive

and 面倒

小規模クラスタ（Hadoopごっこ）ではメリットが少ない

Compare Cloud Big Data Service

クラウド型のデータ分析サービスの比較

Google Big Query ・・・ データ従量課金

Amazon Redshift ・・・インスタンス課金

Azure HDInsight ・・・インスタンス課金 (Hadoop)

Google Big Queryの場合

ほぼ無料

$5 / 処理データ 1TB

$0.020 / ストレージ 1GB

※2016年1月から最大400%の値上げ

負荷の高いクエリーは 1TB / $20

管理画面付き・・・プログラミングの知識がなくても使える

カーリルでの活用例

システムエラーの検出

スクレイピング結果の精度分析

（テキスト形式のログを統計する
　　　簡易的なプログラムから移行）

スキーマを定義 / Python

HOLDING_SCHEMA = [{"name": "timestamp", "type": "TIMESTAMP", "description": u"処理日時", "mode": "REQUIRED"},
                  {"name": "systemid", "type": "STRING", "description": u"システムID", "mode": "REQUIRED"},
                  {"name": "caller", "type": "STRING", "description": u"呼び出し元", "mode": 'nullable'},
                  {"name": "isbn", "type": "STRING", "description": u"ISBN", "mode": "REQUIRED"},
                  {"name": "book", "type": "RECORD", "description": u"所蔵情報", "fields": [
                      {"name": "libid", "type": "INTEGER", "description": u"LIBID", 'mode': 'nullable'},
                      {"name": "libkey", "type": "STRING", "description": u"LIBKEY", 'mode': 'nullable'},
                      {"name": "status", "type": "STRING", "description": u"貸出状態", 'mode': 'nullable'},
                  ], "mode": "repeated"},
                  {"name": "success", "type": "BOOLEAN", "description": u"処理成功フラグ", 'mode': 'REQUIRED'},
                  {"name": "reason_of_error", "type": "STRING", "description": u"エラー情報", 'mode': 'nullable'},
                  {"name": "latency", "type": "FLOAT", "description": u"処理時間", 'mode': 'nullable'}]

{"reason_of_error": null, "latency": 2.0176000595092773, "book": [{"status": "\u8cb8\u51fa\u53ef", "libid": "103405", "libkey": "\u4e2d\u592e"}, {"status": "\u8cb8\u51fa\u4e2d", "libid": "103418", "libkey": "\u6771\u6d66\u548c"}, {"status": "\u8cb8\u51fa\u53ef", "libid": "103412", "libkey": "\u5927\u5bae\u897f\u90e8"}, {"status": "\u8cb8\u51fa\u53ef", "libid": "103406", "libkey": "\u5317\u56f3\u66f8\u9928"}, {"status": "\u8cb8\u51fa\u53ef", "libid": "103413", "libkey": "\u5bae\u539f"}], "systemid": "Saitama_Saitama", "success": "true", "isbn": "4796683550", "timestamp": "2015-09-05 02:53:51", "caller": "API:0"}

1件あたりのログデータ

api.calil.jp

Task worker

Google Big Query

スクレイピングサーバーの

ログデータを集約

JSON (newline-delimited)

ファイルをGCEにアップロードして、Big Queryにロード

Unusual Holding / 異常な所蔵率変化の検出例

多摩ラストワンプロジェクト

NDL

NII

180万タイトル

30館

カーリルAPI

OPAC

2015年1月～3月

5400万回、カーリルAPIを叩く

NDL OAI-PMH → JSONに変換　

4カ月 → 4週間くらいになったらしい

NII OpenSearch → JSONに変換

　↓

遊んでみたい人は

データセット共有できます

SELECT * FROM (
SELECT
IFNULL(ndl.isbn ,nii.nii_isbn) AS isbn ,
IFNULL(ndl.title ,nii.nii_title) AS title ,
IFNULL(ndl.creater ,nii.nii_creater) AS creater,
IFNULL(ndl.publisher ,nii.nii_publisher) AS publisher ,
LEFT(IFNULL(ndl.date ,nii.nii_date),4) AS date ,
ndl.isbn_count AS ndl_isbn_count,
nii.nii_isbn_count AS nii_isbn_count,
ndl.owner_count AS ndl_owner_count
FROM [caliljp.ndlbook] ndl
LEFT OUTER JOIN EACH (
SELECT isbn as nii_isbn,
title as nii_title,
creater as nii_creater,
publisher as nii_publisher,
owner_count as nii_owner_count,
isbn_count as nii_isbn_count,
date as nii_date FROM [caliljp.niibook]
) AS nii ON ndl.isbn=nii.nii_isbn
) WHERE (REGEXP_MATCH(isbn,'^4'))

多摩集約

SELECT systemid,
isbn,
LAST(timestamp) as timestamp,
(LAST(book.libkey) IS NOT NULL) as is_holding,
FROM [caliljp.holding]
WHERE systemid in
('Tokyo_Kokubunji',
'Tokyo_Nishitokyo',
'Tokyo_Hino',
'Tokyo_Hamura',
'Tokyo_Mizuho',
'Tokyo_Higashikurume',
'Tokyo_Tachikawa',
'Tokyo_Okutama',
'Tokyo_Fussa',
'Tokyo_Ome',
'Tokyo_Kodaira',
'Tokyo_Kiyose',
'Tokyo_Chofu',
'Tokyo_Hachioji',
'Tokyo_Musashino',
'Tokyo_Koganei',
'Tokyo_Akishima',
'Tokyo_Tama',
'Tokyo_Fuchu',
'Tokyo_Inagi',
'Tokyo_Komae',
'Tokyo_Hinode',
'Tokyo_Mitaka',
'Tokyo_Akiruno',
'Tokyo_Machida',
'Tokyo_Kunitachi',
'Tokyo_Higashiyamato',
'Tokyo_Higashimurayama',
'Tokyo_Musashimurayama') AND success=true
GROUP EACH BY systemid,isbn;

26館以上のデータが取れていて、1館以上で所蔵されているタイトルを、所蔵図書館数ごとに集計

SELECT sum,count(*) as titles,sum*count(*) as books FROM
(
SELECT isbn,count(*) as count,sum(is_holding) as sum FROM [caliljp.holding_tama_distinct] GROUP BY isbn
) where count>=26 and sum>=1 group by sum order by sum

Text

所蔵自治体数ごとの集計

おまけ1　最速OPAC

SELECT * FROM (
SELECT systemid,AVG(latency) FROM [caliljp.holding] where success=true and timestamp>='2015-06-01 00:00:00' group by systemid order by f0_
) as t1
LEFT JOIN [caliljp.system] as t2
ON t1.systemid=t2.systemid

おまけ2 絶歌所蔵図書館の推移

SELECT t1.d,t2.formal FROM
(SELECT book.libid,DATE(min(timestamp)) as d from [caliljp.holding] where isbn='4778314506' and book.libid is not NULL group by book.libid order by d)
AS t1
LEFT JOIN [caliljp.library] as t2 on t1.libid=t2.libid

ありがとうございました

図書館の大規模データ分析にGoogle Big Queryを使ってみよう

By Ryuuji Yoshimoto

図書館の大規模データ分析にGoogle Big Queryを使ってみよう

Code4Lib 2015 in Tokyo

3,609

Ryuuji Yoshimoto

ryuuji_y

Google Big Queryを使ってみよう

図書館の大規模データ分析に

Problem

Hadoop is too expensive

and 面倒

Compare Cloud Big Data Service

クラウド型のデータ分析サービスの比較

Google Big Queryの場合

スキーマを定義 / Python

Unusual Holding / 異常な所蔵率変化の検出例

多摩ラストワンプロジェクト

多摩集約

26館以上のデータが取れていて、1館以上で所蔵されているタイトルを、所蔵図書館数ごとに集計

おまけ1 最速OPAC

SELECT * FROM ( SELECT systemid,AVG(latency) FROM [caliljp.holding] where success=true and timestamp>='2015-06-01 00:00:00' group by systemid order by f0_ ) as t1 LEFT JOIN [caliljp.system] as t2 ON t1.systemid=t2.systemid

おまけ2 絶歌所蔵図書館の推移

ありがとうございました

図書館の大規模データ分析にGoogle Big Queryを使ってみよう

図書館の大規模データ分析にGoogle Big Queryを使ってみよう

Ryuuji Yoshimoto

More from Ryuuji Yoshimoto

おまけ1　最速OPAC

SELECT * FROM (
SELECT systemid,AVG(latency) FROM [caliljp.holding] where success=true and timestamp>='2015-06-01 00:00:00' group by systemid order by f0_
) as t1
LEFT JOIN [caliljp.system] as t2
ON t1.systemid=t2.systemid