Go言語の正規表現に
後読みを実装した話

さっき作った (@MakeNowJust)

自己紹介

Twitter @make_now_just / GitHub @MakeNowJust
宇宙海賊合同会社のクルー
プログラミング言語・形式言語などが好き
Crystalというプログラミング言語に
コントリビュートするのが趣味

正規表現の後読みに

詳しい方!!!

ところで

6/28にES2018の仕様がリリースされましたね
🎉🎉🎉

ES2018で増えた正規表現関連の機能

https://medium.com/front-end-hacking/javascript-whats-new-in-ecmascript-2018-es2018-17ede97f36d5

RegExp
Lookbehind
Assertions

後読みとは？

正規表現の後読み

```
構文: (?<= ... )
```
直前で括弧の中の正規表現にマッチする場合にマッチ
マッチしない場合にマッチする否定後読みもある
```
↑の構文: (?<! ... )
```
文字列を消費しない ≒ マッチに含まれない、ことが特徴

"Pokemon Go"、"Surface Go"の"Go"には
マッチするけれど、

"Golang"の"Go"の部分には

マッチしない。

/(?<=Pokemon |Surface )Go/

"example_test.go"のような
"_test.go"で終わる文字列には

マッチしないが、

"example.go"のような、
その他の".go"で終わる文字列には
マッチする。

/^.*(?<!_test)\.go$/

正規表現の/^/と同じで、
文字列の先頭にのみマッチする。

(直前で任意の文字にマッチしない位置は
先頭しかないので)

/(?<!.)/

ね、簡単でしょう？

後読みが実装されている
プログラミング言語

Perl
Ruby (鬼雲)
PHP (PCRE)
Java
.NET

ただし、.NET以外は
後読みの中に書けるのは固定の文字列だけなど、

制約がある。

Go言語は‥？

実装したぜ

https://go-review.googlesource.com/c/go/+/98760

しかも‥

(Go言語の正規表現エンジンの特徴である)
マッチ対象の文字列の長さに比例する時間で
マッチを確認できる。
後読みの中に任意の正規表現を書くことができる。
もちろん後読みをネストさせることもできる。

↓↓↓

このような特徴を持った正規表現エンジンは
(自分の知る限り)
世界でこれだけ!!!

Go言語の

正規表現の
実装

Go言語の正規表現

```
"regexp"パッケージ
```
Russ Coxが実装した(はず)
マッチ対象の文字列の長さに比例する時間で
マッチを確認できることが保証されている。
他の正規表現エンジンと比較すると
そんなに速くはない‥‥。

実装がある場所

golang/goのsrc/regexp/以下

https://github.com/golang/go/tree/master/src/regexp

正規表現の実装

正規表現をパース→ASTにする: regexp/syntax/parse.go

ASTをProgに変換する: regexp/syntax/compile.go

```
Progを実行: regexp/exec.go
```

正確にはProgの実行方法は三種類あり、
与えられた正規表現に応じて最適なものが使われる。
(上のものほど速いが使える適用できる正規表現が少ない。)
regexp/onepass.go
regexp/backtrack.go
regexp/exec.go

Prog

```
コンパイル後の正規表現。
```
```
regexp/syntax/prog.go で定義。
```

Instという命令列、開始位置、キャプチャの数を
保持する構造体。

Instの種類

バイトコードは regexp/syntax/prog.go で定義。

InstAlt. InstAltMatch, InstCapture...など

バイトコードは大きく2種類に分けられる。

文字を消費するもの: InstRune, InstRuneAny...など

消費しないもの: InstAlt, InstCapture...など

/yes|no/をコンパイルすると‥

```
InstAlt -> 2, 5
```
```
InstRune 'y' -> 3
```
```
InstRune 'e' -> 4
```
```
InstRune 's' -> 7
```
```
InstRune 'n' -> 6
```
```
InstRune 'o' -> 7
```
```
InstMatch
```

Progの実行

現在実行しているInstの位置、
キャプチャの状態を保持した構造体をthreadと呼ぶ。

このthreadをリストとして持っておいて、
更新していくことで実行する。

Progの実行(疑似コード)

threads := make([]thread, 0)
threads = prog.add(threads, s, prog.Start, 0)
pos := 0
for  len(threads) > 0 {
  next := make([]thread, 0)
  for _, t := range threads {
    next, matched = prog.step(next, s, t.pc, pos)
    if matched {
      return true
    }
  }
  threads = next
  pos += 1
}
return false

prog.addとprog.add

prog.add: 文字列を消費しない命令は進めて、
          threadを追加する。

prog.step: 文字列を消費する命令を進めて、
           prog.addを呼び出す。

prog.add(疑似コード)

i := prog.Inst[pc]
switch i.Op {
case InstEmptyWidth:
  if ... { // \wや\b、^、$の条件を満たしていれば
    return prog.add(threads, s, i.Out, pos)
  }
  return threads
case InstAlt:
  threads = prog.add(threads, s, i.Out, pos)
  return prog.add(threads, s, i.Alt, pos)
// case ...: その他の文字列を消費しない命令の処理が入る
default:
  // 文字列を消費する命令はstepで処理するのでthreadsに追加
  return append(threads, thread{pc: pc})
}

prog.step(疑似コード)

i := prog.Inst[pc]
add := false
switch i.Op {
case InstMatch:
  return threads, true
case InstRune:
  add = i.Rune === s[pos]
// case ...: その他の文字列を消費する命令の処理が入る
}

if add {
  threads = prog.add(threads, s, i.Out, pos)
}
return threads, false

なぜマッチ対象の長さに
比例する時間で動作するのか？

Progの実行の外側のループは文字列の長さ分しか
回らないはず
&&
threadsの最大の大きさは正規表現に依存する。
→文字列の長さに比例する時間で動作する。

後読みの

実装方法

簡単に思いつく方法

命令を逆向きに実行できるようにして、
後読みに遭遇したらそれを呼び出せばいいのでは？
→文字列の長さに比例する時間で動作しなくなる。

発想の転換

後読みの部分をその他とは並列に動作させておいて、
後読みに遭遇したところでそれがマッチしているか
参照できるようにする。

追加する命令

InstRepeatAny: /.*/と同じ。
後読みが任意の位置から始まるようにするために必要。

InstMatchProc: n番目の後読みがマッチしたことを保存する。

InstCheckProc: n番目の後読みがマッチしていた場合、
               次の命令に進む。

InstMatchProc/InstCheckProcは文字を消費しない命令

その他、Progに後読みの開始位置を保持するフィールドForkを追加する。

Progの実行(疑似コード)

threads := make([]thread, 0)
matched = make([]bool, len(prog.Fork))
for fork := range prog.Fork {
  threads = prog.add(threads, s, fork, 0, matched)
}
threads = prog.add(threads, s, prog.Start, 0, matched)
pos := 0
for  len(threads) > 0 {
  next := make([]thread, 0)
  matched = make([]bool, len(prog.Fork))
  for _, t := range threads {
    next, matched = prog.step(next, s, t.pc, pos, matched)
// 以下、変わらない

prog.add(疑似コード)

i := prog.Inst[pc]
switch i.Op {

case InstMatchProc:
  matched[i.Arg] = true
  return threads
case InstCheckProc:
  if matched[i.Arg] {
    threads = prog.add(threads, s, i.Out, pos)
  }
  return threads
// case ...: 他の命令は省略
default:
  // 文字列を消費する命令はstepで処理するのでthreadsに追加
  return append(threads, thread{pc: pc})
}

prog.step(疑似コード)

prog.addの引数にmatchedを追加するだけ
なので省略。

意外と簡単に
実装できる

学術的な
アレとか
コレとか

Go言語の正規表現エンジンは
いわゆるVM型とはちょっと違う

Go言語の正規表現エンジン
は一体何なのか？

あえて言うなら非決定性有限状態オートマトン(NFA)の
実行を模倣する機械。
NFA: 複数の状態へ並列に遷移して、
どれかの状態が受理状態になったら受理とみなす
オートマトン。

後読みを実装するためにやったことは

Go言語の正規表現エンジンにBounded Concurrencyの
機能を追加した。
Bounded Concurrencyはオートマトンの拡張の一つで
複数の状態を並列に、各状態に依存しながら遷移する
ことができるオートマトン。
これを使うと後読みを自然(?)に実装できる。

ちなみに先読みの場合は、

ブーリアン有限状態オートマトン(BFA)という
オートマトンを使うことができる。
BFAは、NFAにANDの演算を追加したもの。
先読みはこのANDに対応する。
Bounded Concurrencyとは比例する状態数で
逆順の文字列にマッチするBFAを構築できることが
知られている。

参考文献

森畑明昌. (2012). 先読み付き正規表現の有限状態オートマトンへの変換. コンピュータソフトウェア, 29(1), 147–158. Retrieved from http://ci.nii.ac.jp/naid/130004549254
Brzozowski, J. A., & Leiss, E. (1980). On equations for regular languages, finite automata, and sequential networks. Theoretical Computer Science, 10(1), 19–35. https://doi.org/10.1016/0304-3975(80)90069-9
Automata DORON DRUSINSKY, F., & Harel, D. (1994). On the power of bounded concurrency I.

めっちゃ急ぎで書いたので
信用しすぎないように

言い訳の
ターン

で、このPull Requestって
マージされてないよね？

なぜマージされないのか

どうやって実装したのかを説明しろと
言われているが、英語で説明するのが
かったるすぎる。
微妙に実装にオーバーヘッドがあり、
後読みを含んでいない正規表現が
5%くらい遅くなるような気がする。
↑後読みなんて大して使わないのに
　あえてマージする意味あるか？　という疑念。

Go言語の正規表現に
後読みを実装した話

自己紹介

正規表現の後読みに

詳しい方!!!

ところで

6/28にES2018の仕様がリリースされましたね
🎉🎉🎉

ES2018で増えた正規表現関連の機能

RegExp
Lookbehind
Assertions

後読みとは？

正規表現の後読み

ね、簡単でしょう？

後読みが実装されている
プログラミング言語

Go言語は‥？

実装したぜ

しかも‥

Go言語の

正規表現の
実装

Go言語の正規表現

実装がある場所

正規表現の実装

なぜマッチ対象の長さに
比例する時間で動作するのか？

後読みの

実装方法

簡単に思いつく方法

発想の転換

追加する命令

意外と簡単に
実装できる

学術的な
アレとか
コレとか

Go言語の正規表現エンジンは
いわゆるVM型とはちょっと違う

Go言語の正規表現エンジン
は一体何なのか？

後読みを実装するためにやったことは

ちなみに先読みの場合は、

参考文献

めっちゃ急ぎで書いたので
信用しすぎないように

言い訳の
ターン

で、このPull Requestって
マージされてないよね？

なぜマージされないのか

みなさんは後読みがあったら
使いますか？

おしまい

Go言語の正規表現に 後読みを実装した話

自己紹介

正規表現の後読みに

詳しい方!!!

ところで

6/28にES2018の仕様がリリースされましたね 🎉🎉🎉

ES2018で増えた正規表現関連の機能

RegExp Lookbehind Assertions

後読みとは？

正規表現の後読み

ね、簡単でしょう？

後読みが実装されている プログラミング言語

Go言語は‥？

実装したぜ

しかも‥

Go言語の

正規表現の 実装

Go言語の正規表現

実装がある場所

正規表現の実装

なぜマッチ対象の長さに 比例する時間で動作するのか？

後読みの

実装方法

簡単に思いつく方法

発想の転換

追加する命令

意外と簡単に 実装できる

学術的な アレとか コレとか

Go言語の正規表現エンジンは いわゆるVM型とはちょっと違う

Go言語の正規表現エンジン は一体何なのか？

後読みを実装するためにやったことは

ちなみに先読みの場合は、

参考文献

めっちゃ急ぎで書いたので 信用しすぎないように

言い訳の ターン

で、このPull Requestって マージされてないよね？

なぜマージされないのか

みなさんは後読みがあったら 使いますか？

おしまい

Go言語の正規表現に
後読みを実装した話

6/28にES2018の仕様がリリースされましたね
🎉🎉🎉

RegExp
Lookbehind
Assertions

後読みが実装されている
プログラミング言語

正規表現の
実装

なぜマッチ対象の長さに
比例する時間で動作するのか？

意外と簡単に
実装できる

学術的な
アレとか
コレとか

Go言語の正規表現エンジンは
いわゆるVM型とはちょっと違う

Go言語の正規表現エンジン
は一体何なのか？

めっちゃ急ぎで書いたので
信用しすぎないように

言い訳の
ターン

で、このPull Requestって
マージされてないよね？

みなさんは後読みがあったら
使いますか？