Szybkie wyszukiwanie pełnotekstowe z ElasticSearch'em

Marcin Stachniuk

29 października 2015

Marcin Stachniuk

Chorąży na

Recenzent książki:

Prośba o feedback

You Know, for Search…


  1. Instalacja
  2. Operacje CRUD
  3. Wyszukiwanie
  4. Filtrowanie
  5. Jak to wszystko działa?
  6. Agregacje
  7. Sugestie
  8. Ekosystem

Instalacja ElasticSearch'a

1. Ściągnij i rozpakuj

curl -O

2. Uruchom



3. I działaj

curl -X GET http://localhost:9200/
  "status": 200,
  "name": "Stiletto",
  "cluster_name": "elasticsearch",
  "version": {
    "lucene_version": "4.10.4"
  "tagline": "You Know, for Search"

4. Warto doinstalować Sense (Beta) Chrome plugin

Podstawowe pojęcia

Elasticsearch SQL
Index Schema
Type Table
Document Row

Operacje CRUD


Tworzenie Indexu (opcjonalnie)

PUT /moviesindex

Tworzenie dokumentu

POST /moviesindex/movies
    "movieid": 2761502,
    "title": "Pulp Fiction",
    "year": "1994",
    "imdbid": null
PUT /moviesindex/movies/3129479
    "movieid": 3129479,
    "title": "Matrix",
    "year": "1999",
    "imdbid": "tt0133093"

Operacje CRUD


Odczytywanie dokumentu

GET /moviesindex/movies/3129479

Wyszukiwanie wszystkich dokumentów

POST /moviesindex/movies/_search

Operacje CRUD


Modyfikacja danego dokumentu (usunięcie i dodanie

na nowo)

PUT /moviesindex/movies/3129479
    "movieid": 3129479,
    "title": "Matrix Matrix Matrix",
    "year": "1999",
    "imdbid": "tt0133093"

Częściowa aktualizacja

POST /moviesindex/movies/3129479/_update
    "doc" : {
        "imdbid": "tt42"

Operacje CRUD



DELETE /moviesindex/movies/3129479


URI Search

GET /esmd/movie/_search?q=title:matrix

Term Query

POST /esmd/movie/_search
    "query" : {
        "term" : { "title" : "matrix" }

Term Query, full text search

POST /esmd/movie/_search
    "query" : {
        "term" : { "_all" : "matrix" }


Match query

POST /esmd/movie/_search
   "query": {
      "match": {
         "title": {
            "query": "matrix revolution",
            "operator": "or"


Multi Match Query

POST /esmd/movie/_search
    "query": {
        "multi_match" : {
            "query":    "2012", 
            "fields": [ "title", "year" ] 

Multi Match Query

POST /esmd/movie/_search
    "query": {
        "multi_match" : {
            "query":    "2012", 
            "fields" : [ "title^3", "*id" ]


Bool query

POST /esmd/movie/_search
   "query": {
      "bool": {
         "must": {
            "match": {
               "title": {
                  "query": "american pie",
                  "operator": "and"
         "should": [
                "term": {
                   "year": {
                      "value": "2010"


Fuzzy query

POST /esmd/movie/_search
    "query" : {
        "fuzzy" : { "title" : "matrixx" }

Domyślne odległości dla tekstów

  • 0..1 - musi pasować dokładnie
  • 1..5 - możliwa jedna edycja
  • >5 - możliwe dwie edycje


Query string query

POST /esmd/movie/_search
   "query": {
      "query_string": {
         "default_field": "title",
         "query": "this AND that OR thus"

Query string query

POST /esmd/movie/_search
   "query": {
      "query_string": {
         "query": "(title:this OR plot:this) AND (title:that OR plot:that)"


Reqexp query

POST /esmd/movie/_search
   "query": {
      "regexp": {
         "title": "a.*q"


Poświetlanie znalezionego fragmentu

POST /esmd/movie/_search
   "query": {
      "term": {
         "plot": "matrix"
   "highlight": {
      "fields": {
         "title": {
            "type": "plain",
            "force_source" : true
         "plot": {
            "type": "plain",
            "force_source" : true

  • szybsze niż zwykłe zapytania (o rząd wielkości)
  • nie ma wyliczania punktacji
  • większość z nich jest automatycznie cache'owa
  • do wyszukiwania gdzie odpowiedzą jest tak/nie
  • do zapytań o dokładną wielkość

Kiedy używać?


Term Filter

POST /esmd/movie/_search
    "filter": {
        "term": {
           "year": "2017"


Range filter

POST /esmd/movie/_search
    "filter": {
        "range": {
           "year": {
              "from": 1889,
              "to": 1890


Exist + not + and filter

POST /esmd/movie/_search
    "filter": {
        "and": {
           "filters": [
                  "not": {
                       "exists": {
                           "field": "rating"
                    "not": {
                       "exists": {
                           "field": "directors"

Jak to wszystko działa?

  • Standard dla bibliotek wyszukiwania
  • Open Source
  • Odwrócony index (inverted index)

Odwrócony index

1. The quick brown fox jumped over the lazy dog


2. Quick brown foxes leap over lazy dogs in summer

Analiza tekstu

1. Tokenizacja tekstu do pojedynczych słów:

The quick brown foxes → [The, quick, brown, foxes]

2. Zamiana liter na małe

The → the

3. Usuwanie "stopwords"

[The, quick, brown, foxes] → [quick, brown, foxes]

Domyślne Angielskie stopwords (link)

a, an, and, are, as, at, be, but, by, for, if, in, into, is, it, no, 
not, of, on, or, such, that, the, their, then, there, these, they, 
this, to, was, will, with

Jak szukać Szekspira? "To be or not to be"

Analiza tekstu

4. Sprowadzanie do form podstawowych

foxes → fox

5. Robienie słów bardziej wyszukiwalnych, np.

John's → john
  • Francuski
l'église → eglis
  • Niemiecki
äußerst → ausserst
  • Angielski

Analiza tekstu

Wsparcie dla języków:

Arabic, Armenian, Basque, Brazilian, Bulgarian, Catalan, Chinese, Czech, Danish, Dutch, English, Finnish, French, Galician, German, Greek, Hindi, Hungarian, Indonesian, Irish, Italian, Japanese, Korean, Kurdish, Norwegian, Persian, Portuguese, Romanian, Russian, Spanish, Swedish, Turkish, and Thai.

Wsparcie do polskiego za pomocą plugina:

Stempel Polish Analysis plugin

Odwrócony index




Query: quick brown

Obliczanie punktacji

Częstość słów (term frequency)

tf(\text{t in d}) = \sqrt{frequency}
tf(t in d)=frequencytf(\text{t in d}) = \sqrt{frequency}

Odwrotna częstość w dokumentach (inverse document frequency)

idf(t) = 1 + log ( \frac{numDocs} {docFreq + 1})
idf(t)=1+log(numDocsdocFreq+1)idf(t) = 1 + log ( \frac{numDocs} {docFreq + 1})

Norma długości pola (field-length norm)

norm(d) = \frac{1} {\sqrt{numTerms}}
norm(d)=1numTermsnorm(d) = \frac{1} {\sqrt{numTerms}}


Score = \text{ ? } tf() \text{ ? } idf() \text{ ? } norm() \text{ ? }
Score= ? tf() ? idf() ? norm() ? Score = \text{ ? } tf() \text{ ? } idf() \text{ ? } norm() \text{ ? }

Obliczanie punktacji

Podgląd punktacji

POST /esmd/movie/_search?explain
  "query": {
    "term": { "title": "matrix" }
  "_explanation": {
    "value": 4.9666376,
    "description": "weight(title:matrix in 21100) [PerFieldSimilarity], result of:",
    "details": [
        "value": 4.9666376,
        "description": "fieldWeight in 21100, product of:",
        "details": [
            "value": 1,
            "description": "tf(freq=1.0), with freq of:",
            "details": [
                "value": 1,
                "description": "termFreq=1.0"
            "value": 11.352315,
            "description": "idf(docFreq=1, maxDocs=62659)"
            "value": 0.4375,
            "description": "fieldNorm(doc=21100)"

Trochę o architekturze

Klaster (Cluster) - identyfikowany przez nazwę

  • Węzły (Node) - osobny server
  • Skorupy ? (Shard) - indeks Lucynki

Typy węzłów:

  • Data - przechowują dane
  • Client - load balancer
  • Master - zarządzanie klastrem

Typy shard'ów:

  • primary
  • replica

Architektua ElasticSearch'a

Architektua ElasticSearch'a


Architektua ElasticSearch'a



2 typy agregacji:

  • metryki - liczenie czegoś na zbiorze dokumentów
  • wiaderkowanie? ("Bucketing") - wrzucanie do różnych worków
  • Lepsze "facet's" (strony, aspekty?)
  • Mogą być zagnieżdżane


Sum Aggregation

POST /esmd/movie/_search
    "size": 0,
    "aggregations" : {
        "ammount of votes" : {
            "sum" : {
                "field": "rating.votes"


Stats Aggregation

POST /esmd/movie/_search
   "size": 0,
   "aggregations": {
      "stats of votes": {
         "stats": {
            "field": "rating.votes"


Terms Aggregation

POST /esmd/movie/_search
   "size": 0,
   "aggregations": {
      "possible years of movies": {
         "terms": {
            "field": "year"
POST /esmd/movie/_search
   "size": 0,
   "aggregations": {
      "possible years of movies": {
         "terms": {
            "field": "year",
            "size": 100


Zagnieżdżone aggregacje

POST /esmd/movie/_search
   "size": 0,
   "aggregations": {
      "possible years of movies": {
         "terms": {
            "field": "year"
         "aggregations": {
            "rank": {
               "terms": {
                  "field": "rating.rank"

Agregacje mogą kłamać

Jak sobie z tym radzić?


  • "doc_count_error_upper_bound": 46 (2 + 15 + 29),
  • "sum_other_doc_count": 81 (suma pod kreską)

Zwiększenie parametru "size"

  • wydajność

Czasem agregacje dają niespodziewane wyniki

"buckets": [
      "key": "american",
      "doc_count": 1
      "key": "fiction",
      "doc_count": 1
      "key": "pie",
      "doc_count": 1
      "key": "pulp",
      "doc_count": 1
POST /moviesindex/movies/_search
    "size": 0, 
    "aggregations" : {
        "by titles": {
            "terms": {
                "field": "title"

Konieczne jest wtedy zastosowanie mappingu

"buckets": [
      "key": "American Pie",
      "doc_count": 1
      "key": "Pulp Fiction",
      "doc_count": 1
PUT /moviesindex
  "mappings": {
    "movies": {
      "properties": {
        "title" : {
          "type": "string",
          "fields": {
            "raw" : {
              "type": "string",
              "index": "not_analyzed"
POST /moviesindex/movies/_search
    "size": 0, 
    "aggregations" : {
        "by titles": {
            "terms": {
                "field": "title.raw"

Term suggester

POST /esmd/_suggest
   "sugest in title": {
      "text": "matri",
      "term": {
         "field": "title"

Wszystkie podpowiadaczki:

  • Term suggester
  • Phrase Suggester
  • Completion Suggester
  • Context Suggester
"sugest in title": [
      "text": "matri",
      "offset": 0,
      "length": 5,
      "options": [
            "text": "matrix",
            "score": 0.8,
            "freq": 26
            "text": "materi",
            "score": 0.8,
            "freq": 18
            "text": "matti",
            "score": 0.8,
            "freq": 11
         }, ...


Jak żyć z ElasticSearchem?

Monitoring Marvel

Monitoring Marvel

Monitoring Kopf

Monitoring Elastic HQ

Monitoring Bigdesk


Analytics and search dashboard for Elasticsearch


Transport and process your logs, events, or other data


Elasticsearch as a Service


Pytania / feedback


Szybkie wyszukiwanie z ElasticSearch'em

Marcin Stachniuk

25 października 2015


