Sortowanie wyników wyszukiwania prac naukowych według związku z zapytaniem
Paweł Kruszczyński
Cel pracy
Możliwe jest uszeregowanie artykułów naukowych względem ich ważności przy użyciu algorytmu PageRank i silnika wyszukiwań Elasticsearch.
Algorytm PageRank

Wyznaczanie rangi (score) dokumentów na podstawie grafu ich połączeń
Koncepcja losowego surfera
Zaczyna w losowym punkcie
W każdym z kroków:
- Przenosi się do losowego dokumentu, jeśli bieżący dokument to ślepy zaułek.
- Przechodzi z prawdopodobieństwem 1-α do jednego z odnośników, bądź z prawdopodobieństwem α przenosi się do losowo wybranego dokumentu.
Surfer nigdy nie kończy swojej wędrówki

Silnik wyszukiwań (search engine) pozwalający na szybkie składowanie, wyszukiwanie oraz analizę danych w czasie niemalże rzeczywistym.
Domyślna miara relewantności to tf-idf
(dla wersji 2.3)
- REST
- skalowalność
- wysoka konfigurowalność
Najważniejsze zalety
Projekt autorski

Wyniki ewaluacji
Porównanie z innymi systemami
Inspire
| zapytanie | korelacja Pearsona |
|---|---|
| "black matter" | −0,064099698969655505 |
| "graphene" | −0,015440329940013266 |
| "string theory" | 0,039817223285069508 |



Test PRWeight

zapytanie: "graphene"



Prezentacja projektu
deck
By pk42350
deck
- 254