TREASURE DATA社

サービス 

超がいよう 

SS ASPセクション

石田真彩

TREASURE DATA社

どんなサービスを

持っているか

知ってますか?

TREASURE DATA社の

持っているサービスは1

オープンソースは5

←サービス

オープン

ソース→

TREASURE DATA

「クラウド型のデータマネージメントサービスです。

各種データを即座にアップロードし、クエリを実行、その結果を様々なシステムと連係する事が出来ます。」

データウェアハウス

データを貯めておけるところ

クエリを使ってデータ抽出できる

TREASURE DATA良いところ

  • 「とりあえずデータいれておこ。」
    ができる。

  • CLIコマンドが提供されている
     

  • 抽出処理がHadoopを使った分散処理

  • クエリがSQLライク
    (Presto/Hive/Pig + Treasure data関数)
     

  • AWSやTableauなど他社製品との連携が容易

既存のログの構成がめちゃめちゃだ!

でも取りたいデータは一応とれてる!

とりあえず今のログ構成のまま

カラムに名前つけて全部文字列として登録しておこう

必要なデータだけ抽出してテーブル作成するようにしよう

管理画面から!TDコマンドラインから!

Fluentd

  • 最近のエンジニア界隈で知らない人はいない
    くらいの有名オープンソース

  • ログなどのリアルタイムにデータが更新されるような
    データをストリーミングしてデータ転送を行うシステム

  • 逐次更新されるデータを右から左へ受け流すシステム

ストリーミング式データ転送システム

Embulk

  • 最近のトレジャーデータイチ押しのオープンソース

  • すでに大量にたまっているデータを並列処理を行いデータ転送を行うシステム

  • データが多いほど早さが顕著に

  • 取り込む前にデータフォーマットチェックするシステムが用意されていて便利

バルク式データ転送システム

ALBERTでの利用

一部クライアントの案件で使用中

結構あちこちで使ってる

まーやが勝手に使いたいと思ってる

ma to me

  • TREASURE DATA社の持つサービスは
    TREASURE DATAである

  • TREASURE DATAはデータウェアハウス的な
    データマネージメントサービスである

  • TREASURE DATAへのインプットツールや
    TREASURE DATAからのアウトプットツールも豊富

  • 周辺ツール(オープンソース)としてはFluentd が有名

  • 最近Embulkもぐいぐいキテる

fin.

Made with Slides.com