1. Banking and Finance
2. Retail and E-commerce
3. Telecommunications
4. Healthcare and Life Sciences
5. Supply Chain and Logistics
Recommender system can
modeled as a bipartite graph with two node types: users and items.
- Edges connect users and items and indicate user-item interaction
(e.g., click, purchase, review etc.)
- Often edge has timestamp of the interaction.
Given past user-item interactions we want to predict new items, the user will
interact in the future
- link prediction task
We need three functions:
- an encoder to generate user embeddings 𝒖
- an encoder to generate item embeddings 𝒗
- Score - a scalar function score(u, v), that returns a real-valued score
link prediction
Neural Graph Collaborative Filtering (NGCF) explicitly incorporates high-order graph structure when generating user/item embeddings.
Key idea: Use a GNN to generate graph-aware user/item embeddings
Initial shallow embeddings
(not graph-aware)
Use a GNN to propagate
embeddings
NGCF's graph-aware
embeddings
Forall \( u \in U \) , \( v \in V \), we set
\( \boldsymbol{u} \leftarrow \boldsymbol{h}_u^{(K)}, \boldsymbol{v} \leftarrow \boldsymbol{h}_v^{(K)} \)
Представитель компании: Добрый день, я являюсь представителем ООО "ВЛАДИСЛАВ" и хотел бы узнать подробности о настройке онлайн-банкинга для нашей компании.
Служба поддержки банка: Здравствуйте! Конечно, я помогу вам с настройкой. Для начала мне понадобятся ваши реквизиты и информация о вашей компании.
Представитель компании: Наша компания занимается торговлей розничными непродовольственными товарами, не включенными в другие группировки, в специализированных магазинах. Мы расположены по адресу 352900, Краснодарский край, г. Армавир, ул. Кропоткина, д. 242, помещение 2. Наш капитал составляет 4 300 000 рублей.
Служба поддержки банка: Спасибо за предоставленную информацию. Для настройки онлайн-банкинга нам потребуется ваше юридическое название, ИНН и реквизиты счета.
Представитель компании: Наше юридическое название - ООО "ВЛАДИСЛАВ", наш ИНН - 1234567890, а реквизиты счета предоставлю вам сейчас. Мы также сотрудничаем с несколькими компаниями, такими как ПЕНЗААГРОПРОМСАД, ТКП ЭЛЗА и ВСЁ ВКУСНОЕ. Это партнеры, с которыми мы часто проводим финансовые операции.
<...>
Актуальность GraphRAG
GraphRAG направлен на преодоление этих ограничений путем интеграции графовых структур, которые позволяют эффективно моделировать и использовать сложные взаимосвязи между данными. Это способствует улучшению как качества поиска релевантной информации, так и процесса генерации текстов, делая их более точными и контекстуально обоснованными.
В работе (Toroghi et al., 2024) рассматривается другой метод улучшения рассуждений в процессе ризонинга посредством аксиом здравого смысла. Авторы делают акцент на сложностях подобных гибридных моделей в ответах на общие вопросы. Commonsense reasoning является одной из ключевых возможностей, предоставляемых LLMs (Shen and Kejriwal, 2021; Zhao et al., 2024). В теории, использование LLMs для рассуждения над набором извлечённых фактов из графов знаний может показаться простым и эффективным способом выполнения задач Commonsense Knowledge Graph Question Answering (KGQA). Однако на практике LLMs склонны вводить необоснованную или некорректную информацию в процесс рассуждения, что называется галлюцинацией (Ye et al., 2023; Tonmoy et al., 2024).
Промптинг, TF-IDF, KNN и иерархии документов
MoGG
RAPTOP
Процесс построения дерева:
1. Сегментация текста: текст разделяется на короткие сегменты длиной до 100 токенов. Если предложение выходит за этот предел, оно переносится целиком в следующий сегмент, чтобы сохранить смысловую цельность.
2. Создание эмбеддингов сегментов с помощью SBERT (BERT-based encoder).
3. Кластеризация сегментов с использованием алгоритма кластеризации, основанного на Gaussian Mixture Models (GMM). Кластеризация подразумевает мягкое разбиение, где сегменты могут принадлежать нескольким кластерам. Для снижения размерности векторов используется метод UMAP.
4. Саммаризация: сегменты внутри кластеров обобщаются с помощью языковой модели (в экспериментах используется gpt-3.5-turbo). Далее итоговые резюме преобразовываются в эмбеддинги, после чего процесс кластеризации и резюмирования повторяется, пока не получится окончательное дерево.
GraphRAG pipeline
1. Исходные документы → Текстовые чанки
2. Текстовые чанки → Графовые элементы
3. Графовые элементы → Саммари графовых объектов
4. Саммари объектов → Графовые сообщества
5. Графовые сообщества → Саммари сообществ
6. Саммари сообществ → Community Answers → Global Answer
Global Answer:
- Ответы сортируются по убыванию их полезности.
- Наиболее полезные ответы по порядку добавляются в новое контекстное окно LLM до тех пор, пока не достигнут лимит токенов.
- Итоговое контекстное окно используется для формирования глобального ответа, который возвращается пользователю.
1. Методы на основе вероятностных графовых моделей:
○ Эти методы используют вероятностные графы для моделирования сообществ. Например, методы на основе скрытых Марковских моделей или стохастических блоковых моделей.
○ Они традиционно применяют различные типы предварительных знаний, таких как вероятностные распределения или связи между узлами, для определения структуры сообществ.
2. Методы глубокого обучения: ○ В последние годы растёт интерес к использованию глубоких нейронных сетей для обнаружения сообществ. Эти подходы часто преобразуют данные сети в низкоразмерные представления, которые затем анализируются для выявления скрытых структур. ○ Одним из популярных направлений является использование графовых нейронных сетей (GNN), которые обучаются на графах и могут эффективно выявлять сообщества на основе связности узлов.
- Organize data into tables.
- Ideal for structured data and
complex transactions.
- Designed for flexibility, scalability, and handling unstructured or semi-structured data.
Data Connectivity
Interconnected Data