〜形態素解析してみよう〜
石田 真彩(エンジニア6年目)
@maaya8585
株式会社 ALBERT
http://www.albert2005.co.jp/
自社サービスの運用/開発
普段私たちが書いている文章を機械で処理すること。その技術。
検索システムとか、レコメンドシステムとか、用途はたくさん!
機械がわかりやすいように単語や文節などに文章を分けた上で
検索や分析、その他webシステムや演算などに表示に
利用する必要がある!
半角スペースで
区切れば
分かち書きできる!
何をキーにして
単語判別したらいいか
わからない!
辞書依存のため流行語や略語を解析させることができる
辞書のメンテナンスが必要
辞書を持たずに機械的にテキストから単語を区切って抽出
通常の単語分割
複合語を細かく分割。
例)「成田国際空港」→ 成田/国際/空港。「国際」や「空港」で「成田国際空港」をヒットさせることができる
SEARCHモード+辞書にない語を1-gramに分割。
例)「パイレディース」→パ/イ/レ/デ/ィ/ス。
Java製の形態素解析ツール。
最近Javascript版も登場しました。
単語の代わりに、単語の読みに変換する
例 ) 「合格」→「ゴウカク」
こんなこともできるよ。
時間があったらdemoするよ
「形態素解析」で検索!
簡単に使えるライブラリも各言語揃っている!(とおもう)
「Kuromoji」「javascript」で検索!
「Gooラボ 形態素解析API」
「Yahoo!デベロッパーネットワーク 日本語形態素解析」で検索!
*あくまで「前処理」なので、
他のシステムと併用して使ってね!!