本当は怖いWikipedia辞書

@nezuq

NLP勉強会 #4

MeCabとは?

  • MeCabとは、形態素解析用のエンジンの一つです。
  • オープンソースなので無料です。
  • 形態素解析とは、文章を単語(のような)単位に分け、品詞を特定する事です。
  • 形態素解析でWebコンテンツに使われている単語を判断し、そこから特徴を判断できるようになります。

辞書とは?

  • MeCabは、標準の辞書だけでは解析精度が出ません。
    解析対象ジャンルの単語(形態素)を集め、
    そこから辞書を独自に作る事で、解析精度を上げます。

代表的な辞書作り方法は?

 

  • Wikipediaの単語データを辞書に変換する。

Wikipedia辞書の利点1

- 豊富なデータ量

  • 記事数:983,794本(9/23 10時時点)
    ※新語・俗語を含み、毎日増える。

Wikipedia辞書の利点2

- 便利なアクセス方法

 

Wikipedia辞書の利点3 - 無料

Wikipedia製辞書の謎

Wikipedia製辞書は便利なのに、

法人運営の技術サイトでは

作り方を紹介する記事が見つからない?

なぜ?

事例 - 某キュレーションサービスとの対話

サポートセンター:
  WikipediaからMeCab辞書を作って使っています。
自分:
 Wikipedia製のMeCab辞書には『頒布義務』がありませんか?

サポートセンター:
 調査致します。(一ヶ月位)

サポートセンター:
 臨時の辞書ダウンロードページを

 用意しました。

結論

Wikipedia製の辞書には

『頒布義務』がある!?

Q.ただの善意(神対応)では?

 

A.No。
 辞書があれば他の事業者でも

 似たようなサービスを提供できるので、

 外部流出は極力避けます。
 また、

 公式の辞書ダウンロードページを

 用意する予定だったとの回答を頂いています。

Q.なぜWikipedia製辞書は『頒布義務』があるの?

 

A.Wikipediaの単語データは、

 「CC BY-SA」のライセンスが適用されるから。

「CC BY-SA」とは?

BY(クレジット表示)とSA(ライセンス継承)を

義務とするライセンスです。

あなたは以下の条件に従う場合に限り、自由に
・本作品を複製、頒布、展示、実演することができます。
・二次的著作物を作成することができます。
あなたの従うべき条件は以下の通りです。
・表示 — あなたは原著作者のクレジットを表示しなければなりません。
・継承 — もしあなたがこの作品を変形や改変したり、この作品に基づいた作品を作る場合、あなたは全く同じか、同一もしくは互換性のある許諾条件でその作品を頒布しなければなりません。

引用元:Wikipedia:クリエイティブ・コモンズ_表示-継承_3.0_非移植

「CC BY-SA」の重要点

  • 継承 — もしあなたがこの作品を変形や改変したり、この作品に基づいた作品を作る場合、あなたは全く同じか、同一もしくは互換性のある許諾条件でその作品を頒布しなければなりません。

反論1 - 著作権

Q.著作権はデータに適用されない。
 Wikipediaの単語データはデータである。
 だからライセンスを守らなくて良いのでは?

A.No。
 単一のデータ(data)には適用されないが、
 複数のデータ(datum)には適用される可能性がある。
 特に、データを特定のテーマに従って整理したものは

 適用される可能性が高い。

データベースの著作物

論文、数値、図形その他の集合物であって、

それらの情報を電子計算機を用いて検索することが

できるように体系的に構成したもの

 

引用元:データベースの著作物とは - 著作権関連用語 Weblio辞書

反論2 - ライセンス

Q.「CC BY-SA」では編集物が保護されない。

 単語データは編集物にあたるのでは?

A.No。
 編集物とは、

 「本作品全体が変更無く含まれ」るものです。
 単語データを辞書に変換する時に、

 その条件をクリアできません。

編集物の定義

編集物とは、 文学的または芸術的作品または実演またはレコードまたは放送またはその他の作品または 本節第h項において列挙される主題以外の作品の集合体(例えば百科事典やアンソロジー)をいい、 素材の選択および配置によって知的創作物を構成し、ひとつ以上のその他の寄稿と共に 本作品全体が変更無く含まれ、それぞれの構成部分が区別されそれぞれ独立した作品であって、 集合的な全体へまとめられているものをいいます。 編集物を構成する作品はこのライセンスの目的において(前項で定義する意味での)二次的著作物とはみなされません。

 

引用元:Wikipedia:クリエイティブ・コモンズ_表示-継承_3.0_非移植

反論3 - 著作権の例外規定

Q.キュレーションサービスは

 検索サービスや情報解析の一種なのだから、

 著作権の例外規定の例外規定が適用されるのでは?
A.No。
 検索サービス(著作権法第47条の6)としては、
 例外規定は検索サービスで紹介するWebコンテンツが

 対象なので、苦しいと考えます。
 情報解析(著作権法第47条の7)としては、
 データベースの著作物は除外すると書かれている為、

 明確にNoと言えます。

そもそも、

明示されたライセンスを守らないのは評判的に良くない。

対応案1

辞書を頒布する。

対応案2

Wikipediaをデータ元に使うが、それを公表しない。

推奨される対応案

Wikipedia以外のデータ元を

利用する。

  • その他の単語集データ(ex.はてなキーワード)
  • 辞書サイトの運営会社との業務提携
  • 商業可能なWebAPI
  • 形態素解析APIを通した単語収集

まとめ

  • Wikipedia製辞書は頒布義務がある
  • その理由は「CC BY-SA」にある。
  • (頒布しないなら)Wikipedia以外の単語辞書が推奨される。
Made with Slides.com