Problemy tokenizacji

Protokoły, adresy URL

Problemem dla wielu tokenizatorów jest rozpoznawanie adresów URL różnych protokołów, niektóre potrafią wydzielić adres. Problemem jednak jest jednak rozpoznanie adresu w protokole.

Patterns

Tokenizer

https://www.wmi.amu.edu.pl/pl/kontakt

ftp://www.wmi.amu.edu.pl/

Nazwy własne

Tokenizatory mają też problemy z nazwami własnymi, są to m.in.: nazwiska, nazwy obiektów czy też nazwy geograficzne. Rozwiązaniem jest wprowadzenie bazy wiedz nazw własnych w konkretny językum (większość dostępnych jest po angielsku).

Patterns

Tokenizer

Jan Nowak-Jeziorański

Most św. Rocha

Zielona Góra

Miary

Kolejnym źródłem kłopotów stają się miary takie jak: waluty, jednostki wagi, odległośći pojemności, procenty itp. Unikatowe jednostki miar ("m", "kg", "l") powinny być z zasady rozpoznawane wszędzie, jednak tak nie jest. Poza tym problemem staje się też liczba rzeczywista, a znak "%", który piszę się bez spacji, jest także dzielony przez tokenizer.

Patterns

Tokenizer

10 zł

1,5 m

10 kg

2 l

100%

Przedrostki i końcówki

Tytuły, stopnie zawodowe czy też naukowe, a także różne inne skróty, chociażby znak "." używanych w datach; potrafią być kłopotliwe.

Patterns

Tokenizer

dr Who

inż. Kowalski

lata 80. XX wieku

2000r.

Problemy tokenizacji

By madjer22

Problemy tokenizacji

  • 777