自然言語処理はじめの一歩

〜形態素解析してみよう〜

W h o    a m   I ?

Maaya Ishida

石田 真彩エンジニア6年目)

@maaya8585

株式会社 ALBERT

http://www.albert2005.co.jp/

自社サービスの運用/開発

出没エリア

  • Java女子部

  • PyLadies Tokyo

natural language processing

普段私たちが書いている文章を機械で処理すること。その技術。

検索システムとか、レコメンドシステムとか、用途はたくさん!

自然言語処理とは

機械に処理させるには

機械がわかりやすいように単語や文節などに文章を分けた上で

検索や分析、その他webシステムや演算などに表示に

利用する必要がある!

 w a k a t i g a k i

東京ディズニーランドは千葉にあります

東京

ディズニーランド

千葉

あり

ます

 w a k a t i g a k i

私 /は / 母 /と / 東京 /ディズニーランド

に / 行っ /た /

I /went / to / Tokyo /Disneyland / with / my / mother.

半角スペースで

区切れば

分かち書きできる!

何をキーにして

単語判別したらいいか

わからない!

Comparison of the Analytical Technique

  • 辞書を用いてテキストから単語を抽出
  • MeCab / Kuromoji / Yahoo!デベロッパーの解析API etc.

形態素解析方式

Good 

辞書依存のため流行語や略語を解析させることができる

Not good enough

辞書のメンテナンスが必要

N-gram方式

  • 辞書を持たずに機械的にテキストから単語を区切って抽出

  • 今回はスコープ外なので詳細はぐぐってね。

Japanese  Analyzer

Kuromoji 

NORMAL

通常の単語分割

SEARCH

複合語を細かく分割。

例)「成田国際空港」→ 成田/国際/空港。「国際」や「空港」で「成田国際空港」をヒットさせることができる

EXTENDED

SEARCHモード+辞書にない語を1-gramに分割。

例)「パイレディース」→パ/イ/レ/デ/ィ/ス。

Java製の形態素解析ツール。

最近Javascript版も登場しました。

解析Mode

Japanese Analyzer

  • 単語を基本形に変換する.    例)  「行け」→「行く」

  • 単語の代わりに、単語の読みに変換する

    例 )  「合格」→「ゴウカク」

こんなこともできるよ。

時間があったらdemoするよ

Let ' s   Try!

コードそれなりに書けるよ!って人

「形態素解析」で検索!

簡単に使えるライブラリも各言語揃っている!(とおもう)

ちょっとくらいならコード書くの頑張るよって人

「Kuromoji」「javascript」で検索!

全くシステム書けないけどやってみたいって人

「Gooラボ 形態素解析API」

「Yahoo!デベロッパーネットワーク 日本語形態素解析」で検索!

fin.

Maaya Ishida     石田 真彩

@maaya8585

*あくまで「前処理」なので、

他のシステムと併用して使ってね!!

20150116_TechWomenNewYearsParty

By maaya ishida

20150116_TechWomenNewYearsParty

  • 2,878