Problemy tokenizacji
Protokoły, adresy URL
Problemem dla wielu tokenizatorów jest rozpoznawanie adresów URL różnych protokołów, niektóre potrafią wydzielić adres. Problemem jednak jest jednak rozpoznanie adresu w protokole.
Patterns

Tokenizer
https://www.wmi.amu.edu.pl/pl/kontakt
ftp://www.wmi.amu.edu.pl/
Nazwy własne
Tokenizatory mają też problemy z nazwami własnymi, są to m.in.: nazwiska, nazwy obiektów czy też nazwy geograficzne. Rozwiązaniem jest wprowadzenie bazy wiedz nazw własnych w konkretny językum (większość dostępnych jest po angielsku).
Patterns
Tokenizer
Jan Nowak-Jeziorański
Most św. Rocha
Zielona Góra

Miary
Kolejnym źródłem kłopotów stają się miary takie jak: waluty, jednostki wagi, odległośći pojemności, procenty itp. Unikatowe jednostki miar ("m", "kg", "l") powinny być z zasady rozpoznawane wszędzie, jednak tak nie jest. Poza tym problemem staje się też liczba rzeczywista, a znak "%", który piszę się bez spacji, jest także dzielony przez tokenizer.
Patterns
Tokenizer
10 zł
1,5 m
10 kg
2 l
100%

Przedrostki i końcówki
Tytuły, stopnie zawodowe czy też naukowe, a także różne inne skróty, chociażby znak "." używanych w datach; potrafią być kłopotliwe.
Patterns
Tokenizer
dr Who
inż. Kowalski
lata 80. XX wieku
2000r.

Problemy tokenizacji
By madjer22
Problemy tokenizacji
- 777