ElasticSearch

Marcin
Lewandowski

ElasticSearch

Marcin
Lewandowski

Marcin Lewandowski

programista z ponad 15 letnim doświadczeniem,
tworzę i rozwijam systemy dla logistyki,
prowadzę bloga czterytygodnie.pl

Uczestnicy

Imię i nazwisko
Jaki jest dla mnie cel szkolenia ?
Czy udało mi się wypełnić Kwestionariusz Oczekiwań przed szkoleniem ?
Gdzie i w jaki sposób będę wykorzystywać wiedzę ze szkolenia ?
Co aktualnie wiem o temacie szkolenia ?
Jakie wykorzystuję oprogramowanie związane z tematem szkolenia ?

Marcin
Lewandowski

Informacje organizacyjne

Marcin
Lewandowski

09:00 do 09:15 - Rozpoczęcie dnia, sprawy organizacyjne
09:15 do 10:45 - Blok szkoleniowy
10:45 do 11.00 - Przerwa kawowa ( 15 min. )
11:00 do 13:00 - Blok szkoleniowy
13:00 do 13:45 - Przerwa obiadowa ( 45 min. )
13:45 do 14:45 - Blok szkoleniowy
14:45 do 15:00 - Przerwa kawowa ( 15 min. )
15:00 do 16:00 - Blok szkoleniowy

16:00 do 17:00 - Praca indywidualna uczestników

Marcin
Lewandowski

Plan szkolenia

1. Introduction to Elasticsearch

2. Writing Search Queries

3. Performing Text Analysis

4. Defining Mappings

5. Expanding Your Searches

6. The Distributed Model

7. Manipulating Search Results

8. Performing Aggregations

9. Handling Data Relationships

10. Summary and Conclusion

Wprowadzenie do ElasticSearch

Silnik wyszukiwania pełnotekstowego oparty o bazę dokumentów,
Wykorzystuje Apache Lucene,
REST API,
Dokumenty w formacie JSON,
Schemat indeksu budowany dynamicznie,
Wysoki poziom dostępności i skalowalności rozwiązania

Wprowadzenie do ElasticSearch

ELK

Elastic Stack

Elasticsearch

Logstash

Kibana

Beats

X Pack

Elastic cloud

Kibana

Wprowadzenie do ElasticSearch

Przeglądanie danych,
Wizualizacja danych
- Dashboard,
- Mapy,
- Wykresy,
Raporty ( Lens )
SIEM ( dla działów bezpieczeństwa )
Zarządzanie i monitorowanie klastrem
- Alerty,
- Kontrola dostępu,
- AL ( Machine Learning )

Logstash

Wprowadzenie do ElasticSearch

Narzędzie do zasilania danymi ElasticSearch,
Możliwe podpięcie rozwiązania pod wiele źródeł danych,
Transformacja danych wejściowych na określony format dzięki rozbudowanej liście filtrów,
Elastyczne rozwiązanie dzięki bogatej liście pluginów,
Skalowanie horyzontalne + kolejki

Logstash

Wprowadzenie do ElasticSearch

Logstash

Wprowadzenie do ElasticSearch

X-Pack

Wprowadzenie do ElasticSearch

Odpowiedzialny za bezpieczeństwo danych.

W podstawowej wersji mamy możliwość zabezpieczenia klastra w oparciu o użytkowników i role

X-Pack

Wprowadzenie do ElasticSearch

Alternatywy

Readonly REST - https://readonlyrest.com
Search Guard - https://search-guard.com
Reverse proxy - https://logz.io/blog/securing-elk-nginx/

Beats

Wprowadzenie do ElasticSearch

Lekka aplikacja napisana w Go służąca do przesyłania danych specjalny przygotowanych pod ElasticSearch.

Najważniejsze cech:

lekka aplikacja generująca znikome obciążenie na serwerze,
gotowe moduły dla najczęstszych rozwiązań znajdujących się na serwerach np. Nginx, Apache, Docker, RabbitMQ, Kafka, MySQL, MariaDB

Beats

Wprowadzenie do ElasticSearch

Dostępne Beats

Filebeat - dostarcza logi,
Metricbeat - dostarcza metryki,
Heartbeat - monitoruje uptime serwisów
Packetbeat - informacje o sieci (netflow)
Auditbeat - informacje związane z kwestiami bezpieczeństwa (Linux Audit Framework)
Winlogbeat - dostarcza informacje o zdarzeniach z systemu Windows

Architektura

ElasticSearch

Architektura

SERWER

( cluster, node, shard, replica )

DANE

( index, type, document )

Architektura

ElasticSearch

Architektura serwera

NODE (węzeł)

CLUSTER (klaster)

SHARD / REPLICA

zbiór jednego lub więcej węzłów

pojedyncza instalacja serwera

Architektura

ElasticSearch

Architektura danych

do wersji 7

INDEX (indeks)

TYPE (typ)

sposób grupowania dokumentów

kolekcja dokumentów

DOCUMENT (dokument)

podstawowa jednostka indeksowania

DATABASE (baza danych)

TABLE (tabela)

RECORD (rekord / wiersz)

Architektura danych

po wersji 7.x

INDEX (indeks)

kolekcja dokumentów

DOCUMENT (dokument)

podstawowa jednostka indeksowania

TABLE (tabela)

RECORD (rekord / wiersz)

Przygotowanie

środowiska

Linux

Instalacja serwera

https://www.elastic.co/downloads/elasticsearch

Zalogowanie na administratora

sudo su

Import klucza PGP

wget -qO - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo gpg --dearmor -o /usr/share/keyrings/elasticsearch-keyring.gpg

Instalacja pakietu apt-transport-https

sudo apt-get install apt-transport-https

Dodanie repozytorium z ElasticSearch

echo "deb [signed-by=/usr/share/keyrings/elasticsearch-keyring.gpg] https://artifacts.elastic.co/packages/7.x/apt stable main" | sudo tee /etc/apt/sources.list.d/elastic-7.x.list

Aktualizacja listy pakietów i instalacja Elasticsearch

sudo apt-get update && sudo apt-get install elasticsearch

Linux

Instalacja serwera

Sprawdzamy czy serwis wystartował

systemctl status elasticsearch.service

Startujemy serwis

systemctl start elasticsearch.service

Linux

Instalacja serwera

Instalacja Kibany

sudo apt-get install kibana

Dodajemy serwis do autostartu

systemctl enable kibana

Kibana

Startujemy serwis

systemctl start kibana

Sprawdzamy czy mamy dostęp do Kibany pod adresem

localhost:5601

Linux

Instalacja serwera

Docker

Instalacja Docker

apt-get install docker.io

Instalacja Docker Compose

apt-get install docker-compose

Wymagania:

Docker, dostarcza kontenery,
Docker Compose, pozwala stworzyć plik z konfiguracją środowiska

Linux

Instalacja serwera

Wyszukujemy odpowiedni obraz na Docker Hub np.

Docker

Startujemy kontener

docker run -d -p 9201:9200 -p 5602:5601 nshou/elasticsearch-kibana

Sprawdzamy czy mamy dostęp do Kibany pod adresem

localhost:5602

https://hub.docker.com/r/nshou/elasticsearch-kibana

Sprawdzamy czy kontener został uruchomiony

docker ps

Linux

Instalacja serwera

docker-compose.yml

Plik z konfiguracją środowiska testowego

version: '3'
 
services:
  es:
    image: nshou/elasticsearch-kibana
    ports:
      - "9201:9200"
      - "5602:5601"

wykorzystujemy obraz nshou/elasticsearch-kibana, który ma dodaną Kibanę,
przekierowujemy porty,
- 9200 - ElasticSearch,
- 5601 - Kibana

Linux

Instalacja serwera

docker-compose.yml

Uruchomienie środowiska

docker-compose up

Uruchomienie środowiska w tle

docker-compose up -d

Sprawdzenie uruchomionych kontenerów

docker ps

Zatrzymanie środowiska

ctrl + c

Zatrzymanie środowiska

docker-compose down

Indeks

zbiór wszystkich dokumentów

REST API

domyślnie zawiera 5 shardów i 5 replik

odwrócony indeks

Indeks odwrócony

Zadanie


PUT shop

Dodajemy indeks

Odpowiedź

{
  "acknowledged": true,
  "shards_acknowledged": true,
  "index": "shop"
}

Kibana

CURL


curl -XPUT 'localhost:9200/shop'

Błędy przy dodawaniu indeksu

Indeks istnieje

{
  "error": {
    "root_cause": [
      {
        "type": "resource_already_exists_exception",
        "reason": "index [shop/BlQB1sKYTA6sV6KOpCp4cw] already exists",
        "index_uuid": "BlQB1sKYTA6sV6KOpCp4cw",
        "index": "shop"
      }
    ],
    "type": "resource_already_exists_exception",
    "reason": "index [shop/BlQB1sKYTA6sV6KOpCp4cw] already exists",
    "index_uuid": "BlQB1sKYTA6sV6KOpCp4cw",
    "index": "shop"
  },
  "status": 400
}

Składnia

{
  "error": "Incorrect HTTP method for uri [/shop] and method [POST], allowed: [GET, HEAD, DELETE, PUT]",
  "status": 405
}

Zadanie

Sprawdzamy listę indeksów

Kibana

GET _stats

Odpowiedź

{
  "_shards": {
    ...
  },
  "_all": {
    ...
  },
  "indices": {
    "shop": {
      ...
    }
  }
}

CURL

curl -XGET 'localhost:9200/_stats?pretty'

Zadanie

Usuwanie indeksu

Kibana

DELETE shop

Odpowiedź

{
  "acknowledged": true
}

CURL

curl -XDELETE 'localhost:9200/shop?pretty'

Lista indeksów

{
  "_shards": {
    ...
  },
  "_all": {
    ...
  },
  "indices": {}
}

Indeks nie istnieje

{
  "error": {
    "root_cause": [
      {
        "type": "index_not_found_exception",
        "reason": "no such index",
        "resource.type": "index_or_alias",
        "resource.id": "shop",
        "index_uuid": "_na_",
        "index": "shop"
      }
    ],
    "type": "index_not_found_exception",
    "reason": "no such index",
    "resource.type": "index_or_alias",
    "resource.id": "shop",
    "index_uuid": "_na_",
    "index": "shop"
  },
  "status": 404
}

Błędy przy usuwaniu indeksu

Typy

REST API

grupowanie dokumentów w ramach indeksu

ElasticSearch 5

ElasticSearch 6

wielu typów w ramach jednego indeksu

tylko jeden typ w indeksie

ElasticSearch 7

rezygnacja z typów

Zadanie

POST shop/products
{
}

Dodajemy nowy typ

Kibana

curl -XPOST 'localhost:9200/shop/products?pretty' -d '{}'

CURL

{
  "_index": "shop",
  "_type": "products",
  "_id": "9nCx-GYB4OAq-pq-3A1z",
  "_version": 1,
  "result": "created",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 0,
  "_primary_term": 1
}

Odpowiedź

Mapping

określa typy pól w dokumentach

Zadanie

GET shop/_mapping

Sprawdzamy mapping

Kibana

curl -XGET 'localhost:9200/shop/_mapping?pretty'

CURL

{
  "shop" : {
    "mappings" : {
    }
  }
}

Odpowiedź

Generowanie Mappingu

dwie metody generowania

automatyczne

przez użytkownika

mapping generowany na podstawie przesyłanych dokumentów

mapping określa użytkownik przesyłając schemat mappingu

Zadanie

Dodajemy dokument do indeksu

Kibana

POST shop
{
  "name": "Xiaomi Redmi 4X",
  "price": 1200,
  "category": "smartfon",
  "creation_date": "2018-01-30"
}

Odpowiedź

{
  "_index": "shop",
  "_type": "products",
  "_id": "BXDj-GYB4OAq-pq-SQ5Y",
  "_version": 1,
  "result": "created",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 0,
  "_primary_term": 1
}

Zadanie

Dodajemy dokument do indeksu o określonym identyfikatorze

POST shop/1
{
  "name": "Xiaomi Redmi 4X",
  "price": 1200,
  "category": "smartfon",
  "creation_date": "2018-01-30"
}

Odpowiedź

{
  "_index": "shop",
  "_type": "products",
  "_id": "1",
  "_version": 1,
  "result": "created",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 0,
  "_primary_term": 1
}

Zadanie

Sprawdzamy automatycznie wygenerowany mapping

Kibana

GET shop/_mapping

"category": {
  "type": "text",
  "fields": {
    "keyword": {
      "type": "keyword",
      "ignore_above": 256
    }
  }
},
"creation_date": {
  "type": "date"
},
"name": {
  "type": "text",
  "fields": {
    "keyword": {
      "type": "keyword",
      "ignore_above": 256
    }
  }
},
"price": {
  "type": "long"
}

POST shop
{
  "name": "Xiaomi Redmi 4X",
  "price": 1200,
  "category": "smartfon",
  "creation_date": "2018-01-30"
}

Zadanie

Dodajemy produkt z typem float

Kibana

POST shop
{
  "name": "Xiaomi Redmi 4X",
  "price": 1199.99,
  "category": "smartfon",
  "creation_date": "2018-01-30"
}

GET shop/_mapping

Sprawdzamy czy zmienił się mapping

...
"price": {
  "type": "long"
}

Odpowiedź

Zadanie

Dodajemy produkt z nowym polem float

POST shop
{
  "name": "Xiaomi Redmi 4X",
  "price": 1500.00,
  "promotion": 1199.99,
  "category": "smartfon",
  "creation_date": "2018-01-30"
}

GET shop/_mapping

Sprawdzamy czy zmienił się mapping

...
"promotion": {
  "type": "float"
}

Odpowiedź

Ręczne definiowanie mappingu

lepsza kontrola nad typami

definiujemy w momencie tworzenia indeksu

PUT shop
{
    "mappings": {
        "properties": {
          ... mapping ...
        }
    }
}

Aktualizacja mappingu

aktualizacja istniejących pól jest niemożliwe

dodawanie definicji dla nowych pól jest dozwolone

dozwolone są operacje:

dodania parametrów do pola typu Object datatype

dodanie parametru ignore_above

dodanie multi-fields do istniejącego pola

Zadanie

Definiujemy mapping

Usuwamy indeks

DELETE shop

PUT shop
{
    "mappings": {
        "properties": {
          "category": {
            "type": "text"
          },
          "creation_date": {
            "type": "date"
          },
          "name": {
            "type": "text"
          },
          "price": {
            "type": "double"
          }
        }
    }
}

Tworzymy indeks

Sprawdzamy mapping

GET shop/_mapping

  "shop": {
    "mappings": {
      "properties": {
        "category": {
          "type": "text"
        },
        "creation_date": {
          "type": "date"
        },
        "name": {
          "type": "text"
        },
        "price": {
          "type": "double"
        }
      }
    }
  }

Obiekty zagnieżdżone

( nested )

"manufacturer": {
  "type": "nested",
  "properties": {
    ... lista pól ...
  }
}

pole przechowujące obiekt JSON lub tablicę obiektów

ukryte dokumenty

specyficzny sposób wyszukiwania

Definicja pola nested

Zadanie

Dodajemy pole typu nested do indeksu

PUT shop/_mapping
{
  "properties": {
    "manufacturer": {
      "properties": {
        "id": { 
          "type": "integer",
          "store": true,
          "index": true
        },
        "name": {
          "type": "text"
        }
      }
    }
  }
}

Aktualizujemy mapping

GET shop/_mapping

{
  "shop": {
    "mappings": {
        "properties": {
          "category": {
            "type": "text"
          },
          "creation_date": {
            "type": "date"
          },
          "manufacturer": {
            "properties": {
              "id": {
                "type": "integer",
                "store": true
              },
              "name": {
                "type": "text"
              }
            }
          },
          "name": {
            "type": "text"
          },
          "price": {
            "type": "double"
          }
        }
    }
  }
}

Sprawdzamy modyfikacje

Dokumenty

Proces dodawania do indeksu

analyzer: {
    "char_filter": ["html_strip"],
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

Testowanie poszczególnych elementów

GET /_analyze
{
  "text": ["Xiaomi <strong>Redmi</strong> 4X"]
}

Do testów poszczególnych elementów używamy endpoint-u _analyze

https://www.elastic.co/guide/en/elasticsearch/reference/current/indices-analyze.html

Dokumenty

char_filter

GET /_analyze
{
  "char_filter": [
    "html_strip"
  ],
  "text": ["Xiaomi <strong>Redmi</strong> 4X"]
}

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-charfilters.html

Dokumenty

Filtry znaków

char_filter - HTML strip character filter

PUT test_char_filter
{
    "settings": {
        "analysis": {
            "char_filter": {
                "accept_strong": {
                    "type": "html_strip",
                    "escaped_tags": [
                        "strong"
                    ]
                }
            }
        }
    }
}

Możliwa jest tworzenie własnych ustawień dla filtrów znaków.

GET /test_char_filter/_analyze
{
  "char_filter": [
    "accept_strong"
  ],
  "text": ["Xiaomi <strong>Redmi</strong> 4X"]
}

Filtry znaków

mapping - Mapping Character Filter

Filtr mapowania znaków pozwala przypisać określonym znakom odpowiedniki.

GET /_analyze
{
  "char_filter": [
    {
      "type": "mapping",
      "mappings": [
          "1 => jeden",
          "2 => dwa"
      ]
    }
  ],
  "text": ["Akceptowane cyfry to: 1 lub 2"]
}

Zamiast wpisywania całego mapping-u ręcznie, możliwe jest zdefiniowanie go w pliku i podanie ścieżki do pliku. Robimy to w parametrze: mappings_path

Filtry znaków

mapping - Mapping Character Filter

Filtr mapowania znaków pozwala przypisać określonym znakom odpowiedniki.

GET /_analyze
{
  "char_filter": [
    {
      "type": "mapping",
      "mappings": [
          "1 => jeden",
          "2 => dwa"
      ]
    }
  ],
  "text": ["Akceptowane cyfry to: 1 lub 2"]
}

Zamiast wpisywania całego mapping-u ręcznie, możliwe jest zdefiniowanie go w pliku i podanie ścieżki do pliku. Robimy to w parametrze: mappings_path

Filtry znaków

pattern_replace - Pattern Replace Character Filter

Filtr wyrażeń regularnych.

GET /_analyze
{
  "char_filter": [
    {
      "type": "pattern_replace",
      "pattern": "(\\d+)",
      "replacement": "$1 (cyfra)"
    }
  ],
  "text": ["Akceptowane cyfry to: 1 lub 2"]
}

Tokenizer

najważniejszy element analizera

odpowiedzialny za podział tekstu na tokeny

korzystamy tylko z wbudowanych tokenizerów

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-tokenizers.html

Tokenizer

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-tokenizers.html

Dostępne tokenizery

Tokenizer

standard

GET /_analyze
{
  "tokenizer": "standard",
  "text": "Xiaomi Redmi 4X"
}

{
  "tokens": [
    {
      "token": "Xiaomi",
      "start_offset": 0,
      "end_offset": 6,
      "type": "<ALPHANUM>",
      "position": 0
    },
    {
      "token": "Redmi",
      "start_offset": 7,
      "end_offset": 12,
      "type": "<ALPHANUM>",
      "position": 1
    },
    {
      "token": "4X",
      "start_offset": 13,
      "end_offset": 15,
      "type": "<ALPHANUM>",
      "position": 2
    }
  ]
}

Tokenizer standardowy

Efekt działania

Filtry tokenów

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-tokenfilters.html

Filtry tokenów

GET /_analyze
{
  "tokenizer" : "standard",
  "filter" : ["lowercase"],
  "text" : "Xiaomi Redmi 4X"
}

lowercase

{
  "tokens" : [
    {
      "token" : "xiaomi",
      "start_offset" : 0,
      "end_offset" : 6,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "redmi",
      "start_offset" : 7,
      "end_offset" : 12,
      "type" : "<ALPHANUM>",
      "position" : 1
    },
    {
      "token" : "4x",
      "start_offset" : 13,
      "end_offset" : 15,
      "type" : "<ALPHANUM>",
      "position" : 2
    }
  ]
}

Standard Tokenizer

Standard Token Filter, Lower Case Token Filter

Lower Case Tokenizer

Whitespace Tokenizer

Pattern Tokenizer

Lower Case Token Filter, Stop Token Filter

Standard Tokenizer

Lower Case Token Filter, ASCII Folding Token Filter, Stop Token Filter, Fingerprint Token Filter

Lower Case Tokenizer

dodaje obsługę stop words

zwraca dane wejściowe jako pojedynczy token

obsługują specyficznie każdy wspierany język

Analizery

Dostępne analizery

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html

Analizery

Dostępne analizery

GET /_analyze
{
  "analyzer": "standard",
  "text": "Xiaomi Redmi 4X"
}

Analizer standardowy

Tworzymy własny analizer

{
  "settings": {
    "analysis": {
      "analyzer": {
        ...
      }
    }
  }
}

Struktura

Analizer

"my_analyzer": {
  "type": "custom",
  "char_filter": [
    "html_strip"
  ],
  "tokenizer": "standard",
  "filter": [
    "lowercase"
  ]
}

PUT shop/_settings
{
  "analysis": {
    "analyzer": {
      "my_analyzer": {
        "type": "custom",
        "char_filter": ["html_strip"],
        "tokenizer": "standard",
        "filter": ["lowercase"]
      }
    }
  }
}

POST /shop/_close

POST /shop/_open

Zamykamy indeks

Otwieramy indeks

Analizery

Zadanie

Testujemy stworzony analizer

GET /shop/_analyze
{
  "analyzer": "standard",
  "text": ["Xiaomi <strong>Redmi</strong> 4X"]
}

GET /shop/_analyze
{
  "analyzer": "my_analyzer",
  "text": ["Xiaomi <strong>Redmi</strong> 4X"]
}

{
  "tokens": [
    {
      "token": "xiaomi",
      "start_offset": 0,
      "end_offset": 6,
      "type": "<ALPHANUM>",
      "position": 0
    },
    {
      "token": "redmi",
      "start_offset": 15,
      "end_offset": 29,
      "type": "<ALPHANUM>",
      "position": 1
    },
    {
      "token": "4x",
      "start_offset": 30,
      "end_offset": 32,
      "type": "<ALPHANUM>",
      "position": 2
    }
  ]
}

{
  "tokens": [
    {
      "token": "xiaomi",
      "start_offset": 0,
      "end_offset": 6,
      "type": "<ALPHANUM>",
      "position": 0
    },
    {
      "token": "strong",
      "start_offset": 8,
      "end_offset": 14,
      "type": "<ALPHANUM>",
      "position": 1
    },
    {
      "token": "redmi",
      "start_offset": 15,
      "end_offset": 20,
      "type": "<ALPHANUM>",
      "position": 2
    },
    {
      "token": "strong",
      "start_offset": 22,
      "end_offset": 28,
      "type": "<ALPHANUM>",
      "position": 3
    },
    {
      "token": "4x",
      "start_offset": 30,
      "end_offset": 32,
      "type": "<ALPHANUM>",
      "position": 4
    }
  ]
}

Wyszukiwanie

Rodzaje Wyszukiwania

Precyzyjne

Pełnotekstowe

brak analizy wyszukiwanej frazy

przed rozpoczęciem wyszukiwania fraza jest analizowana

Wyszukiwanie

Mapping

Dane testowe

Otwieramy poniższe linki i zapisujemy jako pliki Ctrl + S.

Nie zmieniamy nazwy plików ;)

Wyszukiwanie

Dane testowe

https://kursy.czterytygodnie.pl/wp-content/uploads/2022/08/movies_mapping_v1.txt

https://kursy.czterytygodnie.pl/wp-content/uploads/2020/07/movies_data-1.txt

Wyszukiwanie

Dane testowe

Import indeksu

curl -XPUT 'http://127.0.0.1:9200' -H 'Content-Type: application/json' -d @movies_mapping_v1.txt

Import się nie powiedzie ze względu na pierwszą linię, którą trzeba usunąć PUT movies_v1.

Import danych

curl -XPOST 'http://127.0.0.1:9200/_bulk' -H 'Content-Type: application/json' --data-binary @movies_data-1.txt

Sprawdzamy czy dane znajdują się w indeksie

POST movies_v1/_search

{
  ...
  "hits": {
    "total": 20,
    "max_score": 1,
    "hits": [
      {
        "_index": "produkty",
        "_type": "product",
        "_id": "gpPNDGcBIwsD9fejqIT1",
        "_score": 1,
        "_source": {
          "utworzono": "2018-08-23",
          "nazwa": "iPad Pro",
          "url": "ipad-pro",
          "cena": 3500,
          "producent": {
            "name": "Apple",
            "id": 2
          },
          "kategoria": "Tablety",
          "opis": "Zamień komputer..."
        }
      },
    ]
  }
}

Wyszukiwanie

Rezultat wyszukiwania

Przeszukiwanie określonego pola ( Term )

Wyszukujemy frazę "zielona mila"

Wyszukujemy frazę "zielona"

GET movies_v1/_search
{
  "query": {
    "term": {
      "title": "zielona mila"
    }
  }
}

GET produkty/_search
{
  "query": {
    "term": {
      "title": "zielona"
    }
  }
}

Wyszukiwanie

Wyszukiwanie wielu fraz ( Terms )

Wyszukujemy frazę "zielona" lub "mila"

GET produkty/_search
{
  "query": {
    "terms": {
      "nazwa": ["zielona", "mila"]
    }
  }
}

"hits" : [
      {
        "_score" : 1.0,
        "_source" : {
          "title" : "Zielona mila"
        }
      },
      {
        "_score" : 1.0,
        "_source" : {
          "title" : "8 Mila"
        }
      }, 
...

Wyszukiwanie

Prefix

Wyszukiwanie tokenów zaczynających się na "zielon"

GET movies_v1/_search
{
  "query": {
    "prefix": {
      "nazwa": "zielon"
    }
  }
}

Wyszukiwanie

wyszukiwanie tokenów zaczynających się na określoną wartość,
zapytanie dość kosztowne dlatego przy częstym wykorzystywaniu na określonym polu warto dodać index_prefixes w mappingu

https://www.elastic.co/guide/en/elasticsearch/reference/current/index-prefixes.html

Ids

GET movies_v1/_search
{
  "query": {
    "ids": {
      "values": [6836, 5573, 1359]
    }
  }
}

Wyszukiwanie dokumentów po ich identyfikatorze

Wyszukiwanie

Range

GET movies_v1/_search
{
  "_source": ["title", "year"], 
  "query": {
    "range": {
      "year": {
        "gte": 2010,
        "lte": 2012
      }
    }
  }
}

Wyszukiwanie dokumentów w ramach zdefiniowanego zakresu.

Wyszukiwanie

GET movies_v1/_search
{
  "_source": ["title", "rate"], 
  "query": {
    "range": {
      "rate": {
        "gte": 8
      }
    }
  }
}

Fuzzy Query

GET movies_v1/_search
{
  "_source": ["title"], 
  "query": {
    "fuzzy": {
      "title": {
        "value": "zielona"
      }
    }
  }
}

Wykorzystuje odległość Levenshteina

ile kroków należy wykonać, aby przekształcić jedną wartość na drugą np. zmiana, dodanie, usunięcie znaku
Standardowe ustawienia:
- 2 znaki - musi być zgodność 100%
- 3 - 5 znaków - możliwy jeden krok,
- > 5 znaków - możliwe 2 kroki

Wyszukiwanie

GET movies_v1/_search
{
  "_source": ["title"], 
  "query": {
    "term": {
      "title": {
        "value": "zielona"
      }
    }
  }
}

7 wyników

16 wyników

Wildcard

GET movies_v1/_search
{
  "_source": ["title"], 
  "query": {
    "wildcard": {
      "title": {
        "value": "?arr*"
      }
    }
  }
}

Zapytanie umożliwiające elastyczne wyszukiwanie poprzez zastępowanie znaków znakami specjalnymi.

Znaki specjalne możliwe do wykorzystania:

* - zastępuje wiele znaków

? - zastępuje jeden znak

Wyszukiwanie

Regexp

GET movies_v1/_search
{
  "_source": ["title"], 
  "query": {
    "regexp": {
      "title": {
        "value": "zie.*"
      }
    }
  }
}

Wyszukiwanie oparte o wyrażenia regularne. Zapytanie bardzo zasobożerne i nie jest zalecane używanie tego na produkcji.

Wyszukiwanie

Wyszukiwanie pełnotekstowe

Wyszukiwanie w określonym polu

Wyszukiwanie frazy "zielona mila"

GET movies_v1/_search
{
  "_source": ["title"], 
  "query": {
    "match": {
      "title": {
        "query": "zielona mila"
      }
    }
  }
}

Wyszukiwanie

Match

zmiana operatora na AND

GET movies_v1/_search
{
  "_source": ["title"], 
  "query": {
    "match": {
      "title": {
        "query": "zielona mila",
        "operator": "and"
      }
    }
  }
}

Wyszukiwanie w określonej kolejności

Wyszukiwanie frazy "harry potter"

GET movies_v1/_search
{
  "_source": ["title"], 
  "query": {
    "match_phrase": {
      "title": {
        "query": "harry potter"
      }
    }
  }
}

Wyszukiwanie

Match Phrase

dodanie operatora na sloop

GET movies_v1/_search
{
  "_source": ["title"], 
  "query": {
    "match_phrase": {
      "title": {
        "query": "harry sally",
        "slop": 1
      }
    }
  }
}

Wyszukiwanie frazy

"harry Hendersons"

GET movies_v1/_search
{
  "_source": ["title", "title_org"], 
  "query": {
    "multi_match": {
      "fields": [
        "title",
        "title_org"
      ],
      "query": "harry Hendersons"
    }
  }
}

Wyszukiwanie

Multi Match

Przeszukiwanie wielu pól jednocześnie.

GET movies_v1/_search
{
  "_source": ["title", "title_org"], 
  "query": {
    "multi_match": {
      "fields": [
        "title^3",
        "title_org"
      ],
      "query": "harry Hendersons"
    }
  }
}

Boost na polu title

GET movies_v1/_search
{
  "_source": ["title", "title_org"], 
  "query": {
    "nested": {
      "path": "genres",
      "query": {
        "match": {
          "genres.name": "komedia"
        }
      }
    }
  }
}

Wyszukiwanie

Nested

Wyszukiwania złożone

Bool

Struktura zapytania

GET produkty/_search
{
  "query": {
    "bool" : {
      "must" : {},
      "filter": {},
      "must_not" : {},
      "should" : {}
    }
  }
}

Zadanie

Wyszukujemy wszystkie produkty z kategorii "tablety"

bool - must

GET produkty/_search
{
  "query": {
    "bool": {
      "must": {
        "match": {
          "kategoria": "tablety"
        }
      }
    }
  }
}

Zadanie

Wyszukujemy wszystkie produkty z kategorii "tablety" w przedziale cenowym od 1000 do 1500

bool - must

GET produkty/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "kategoria": "tablety"
          }
        },
        {
          "range": {
            "cena": {
              "gte": 1000,
              "lte": 1500
            }
          }
        }
      ]
    }
  }
}

Zadanie

Wyszukujemy wszystkie produkty z kategorii "tablety" bez wpływu na "_score"

Bool - filter

GET produkty/_search
{
  "query": {
    "bool": {
      "filter": {
        "match": {
          "kategoria": "tablety"
        }
      }
    }
  }
}

Zadanie

Wyszukujemy wszystkie produkty z kategorii "tablety" bez producenta "Apple",

gdzie producent jest polem nested nie włączanym do dokumentu

Bool - must_not ( nested )

GET produkty/_search
{
  "query": {
    "bool": {
      "must": {
        "match": {
          "kategoria": "tablety"
        }
      },
      "must_not": {
        "nested": {
          "path": "producent",
          "query": {
            "match": {
              "producent.name": "Apple"
            }
          }
        }
      }
    }
  }
}

Zadanie

Wyszukujemy wszystkie produkty z kategorii "tablety" bez producenta "Apple"

Bool - must_not

GET produkty_producent/_search
{
  "query": {
    "bool": {
      "must": {
        "match": {
          "kategoria": "tablety"
        }
      },
      "must_not": {
        "match": {
          "producent.name": "Apple"
        }
      }
    }
  }
}

Zadanie

Wyszukujemy wszystkie produkty od producenta "Apple" lub "Samsung"

Bool - should

GET produkty_producent/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "producent.name": "Apple"
          }
        },
        {
          "match": {
            "producent.name": "Samsung"
          }
        }
      ]
    }
  }
}

Reindeksacja
danych

Reindeksacja danych

POST _reindex?wait_for_completion=false
{
  "source": {
    "index": "movies_v1"
  },
  "dest": {
    "index": "movies_v2"
  }
}

Zakładamy index movies_v2 i dodajemy "index_prefixes": { } w polu title

{
  "task" : "a9qwXzi2RG6HwYAmSwp6Hg:47188"
}

GET _tasks/a9qwXzi2RG6HwYAmSwp6Hg:47188

{
  "completed" : true,
  "task" : {
    "node" : "a9qwXzi2RG6HwYAmSwp6Hg",
    "id" : 47188,
    "type" : "transport",
    "action" : "indices:data/write/reindex",
    "status" : {
      "total" : 18221,
      "updated" : 0,
      "created" : 18221,
      "deleted" : 0,
      "batches" : 19,
      "version_conflicts" : 0,
      "noops" : 0,
      "retries" : {
        "bulk" : 0,
        "search" : 0
      },
      "throttled_millis" : 0,
      "requests_per_second" : -1.0,
      "throttled_until_millis" : 0
    },

Agregacja
danych

GET movies_v1/_search
{
  "_source": ["title"], 
  "aggs": {
    "pogrypowane": {
      "terms": {
        "field": "type",
        "size": 10
      }
    }
  }
}

GET movies_v1/_search
{
  "_source": ["title"], 
  "aggs": {
    "pogrypowane": {
      "terms": {
        "field": "type",
        "size": 10
      },
      "aggs": {
        ...
      }
    }
  }
}

Budujemy wyszukiwarkę

Dziękuję za uwagę :)

Marcin
Lewandowski

ElasticSearch

By Marcin Lewandowski

ElasticSearch

1,687

Marcin Lewandowski

czterytygodnie.pl