Sortowanie wyników wyszukiwania prac naukowych według związku z zapytaniem

Paweł Kruszczyński

Cel pracy

Możliwe jest uszeregowanie artykułów naukowych względem ich ważności przy użyciu algorytmu PageRank i silnika wyszukiwań Elasticsearch.

Algorytm PageRank

Wyznaczanie rangi (score) dokumentów na podstawie grafu ich połączeń

Koncepcja losowego surfera

Zaczyna w losowym punkcie

 

W każdym z kroków:

- Przenosi się do losowego dokumentu, jeśli bieżący dokument to ślepy zaułek.


- Przechodzi z prawdopodobieństwem 1-α do jednego z odnośników, bądź z prawdopodobieństwem α przenosi się do losowo wybranego dokumentu.

 

Surfer nigdy nie kończy swojej wędrówki

Silnik wyszukiwań (search engine) pozwalający na szybkie składowanie,  wyszukiwanie oraz analizę danych w czasie niemalże rzeczywistym.

Domyślna miara relewantności to tf-idf

(dla wersji 2.3)

  • REST
  • skalowalność
  • wysoka konfigurowalność

Najważniejsze zalety

Projekt autorski

Wyniki ewaluacji

Porównanie z innymi systemami

Inspire

zapytanie korelacja Pearsona
"black matter" −0,064099698969655505
"graphene" −0,015440329940013266
"string theory" 0,039817223285069508

Test PRWeight

zapytanie: "graphene"

Prezentacja projektu

Made with Slides.com