Metoda osadzania grafów z atrybutami

wykonawca: Michał Bieroński

opiekun: dr. inż. Tomasz Kajdanowicz

Osadzanie grafów

a) wierzchołki

b) krawędzie

c) podgrafy

Podział ze względu na strukturę

Cel osadzania wierzchołków

  • możliwość przetwarzania przez większość metod uczenia maszynowego
  • zmniejszenie wymiarowości

Dostępne popularne rozwiązania

Grafowe sieci konwolucyjne

Bazujące na losowym błądzeniu

Bazujące na błądzeniu

  • DeepWalk (2014)
    • protoplast dziedziny
  • Node2vec (2016)
    • sterowalne błądzenie po grafie (DFS vs BFS)
  • Metapath2vec (2017)
    • grafy heterogeniczne
  • CTDNE (2018)
    • grafy temporalne

Grafowe sieci konwolucyjne

  • GCN: Semi-Supervised Classification with Graph Convolutional Networks (2016)
  • GraphSAGE: Inductive Representation Learning on Large Graphs (2017)
    • skalowalność, douczanie, nowe węzły

 

Atrybutowane osadzanie

stanowisko: menedżer

wiek: 35

...

...

Motywacja:

  • występujące korelacje pomiędzy strukturą sąsiedztwa a atrybutami
  • kodowanie bardziej złożonych zależności
  • bogatsza postać wektorowa:
    • lepsze rezultaty w zadaniach jak np. klasyfikacja wierzchołka

Atrybutowane osadzanie

Temat był eksplorowany dla atrybutów węzłów:

  • GCN i jego pochodne
  • Deep Attributed Network Embedding (2018)
  • ...

Ale... tylko dla atrybutów węzłów

Atrybutowane osadzanie

Co zostało pominięte?

Pierwotny pomysł: meta-edge

Enhanced Network Embeddings via Exploiting Edge Labels

2. Jak kodować etykiety krawędzi?

  • [1, 0, 0]
    • każda wiadomość jako one-hot
  • [0.3, 0.6, 0.1]
    • rozkład prawdopodobieństwa "tematów"
  • [0.454, 0.5151, -0.782]
    • zewnętrzna wektoryzacja

3. Czy niezależna optymalizacja 2  funkcji strat jest dobrym pomysłem?

1. Jak wydobyć etykiety krawędzi?

Potencjalne pytania

Zbiór danych

Dane komunikacyjne:

Pozycje zajmowane w firmie:

Cel

  • weryfikacja wpływu uwzględnienia atrybutów krawędzi podczas procesu osadzania węzłów w zadaniach rzeczywistych
  • zaproponowanie rozwiązania umożliwiającego spełnienie powyższego wymagania
  • zaproponowanie i przebadanie sposobów kodowania atrybutów na krawędziach
  • zaproponowanie 1 modelu umożliwiającego uwzględnienie różnych aspektów sieci:
    • sąsiedztwa
    • atrybutów krawędzi
    • temporalności
       

Motywacja

  • praktycznie brak prac na ten temat (istnieje jeden artykuł na ten temat z października 2018)
  • użyteczność biznesowa
  • 1 model uwzględniający różne aspekty sieci jest użyteczny z praktycznego punktu widzenia

Seminarium dyplomowe

By bierus

Seminarium dyplomowe

  • 249