граф Толстой

 или сетевой анализ "Войны и мира"

План презентации

  • Сети в литературоведении
  • Анализ "Войны и мира"
    методами теории сетей (графов)
    • динамика частей и томов
    • персонажи и группы
  • Прежние сюжеты (контекст сетей во всем исследовании)

Слайды

  • Презентация: https://goo.gl/dLf7SV 
    • ​вперед — пробел, назад — shift+пробел
  • Презентация live: https://goo.gl/mBGzVm
    • листается параллельно со мной

Анализ "Войны и мира" методами теории сетей

Граф (сеть)

Сети в литературоведении

Сети в литературоведении

Автоматическое извлечение

  • Agarwal, A., Kotalwar, A. and Rambow, O. (2013a). Automatic Extraction of Social Networks from Literary Text: A Case Study on Alice in Wonderland, Proceedings of the 6 th International Joint Conference on Natural Language Processing (IJCNLP 2013), Nagoya, Japan.
  • He, H., Barbosa, D. and Kondrak, G. (2013). Identification of Speakers in Novels, Proceedings of ACL 2013, Sofia, Bulgaria.
  • Celikyilmaz, A. et al. (2010). The Actor-Topic Model for Extracting Social Networks in Literary Narrative, NIPS Workshop: Machine Learning for Social Computing.
  • Elson, D. K., Dames, N. and McKeown, K. (2010b). Extracting Social Networks from Literary Fiction, Proceedings of ACL 2010, Uppsala, Sweden.
  • Lee J. and Yeung C. Y. (2012). Extracting Networks of People and Places from Literary
    Texts. ACL2012.
  • Бодрова и Бочаров, Диалог 2014

Анализ "Войны и мира" методами теории сетей 

Анализ "Войны и мира" методами теории сетей 

  • Количественные параметры сети персонажей как отражение динамики романа
  • Количественные параметры отдельных узлов-персонажей как признак их значимости
  • Автоматическое выделение значимых подгрупп персонажей

Как мы получаем сети

  • Совместная встречаемость (cooccurrence network)
  • Диалог (conversational network)
  • (NEW) Заполнение ролей одного предиката

Предобработка

  • Извлечение персонажей
  • Разрешение кореферентности
    • Местоименная: Compreno
    • Именная: с опорой на списки имен (aliases)
  • Извлечение диалогов
  • Semantiс role labeling (или просто синт. анализ)

Общие параметры сети

  • Плотность
  • Диаметр
  • Средние показатели узлов
    • средняя степень
    • средняя взвешенная степень
    • средние центральности

Свойства сети

  • Плотность
  • Диаметр
  • Средние показатели узлов
    • средняя степень
    • средняя взвешенная степень
    • средние центральности

Общие параметры узла

  • Степень
  • Взвешенная степень
  • Центральности
    • по посредничеству (betweenness)
    • по близости (closeness)
    • эксцентричность
    • ...

Свойства узла

  • степень
  • взвешенная степень
  • центральности
    • по посредничеству
    • по близости
    • эксцентричность

Свойства узла

  • степень
  • взвешенная степень
  • центральности
    • по посредничеству
    • по близости
    • эксцентричность

Свойства узла

  • степень
  • взвешенная степень
  • центральности
    • по посредничеству
    • по близости
    • эксцентричность

Сети по частям 

(на примере cooccurrence network)

Том 1 часть 1

Том 1 часть 2

Видны различия

Можем ли мы их померить?

Гипотеза:

"Военные" части — менее плотные

Проверяем гипотезу

Том 1 1 1 2 2 2 2 3 3 3 4 4 4 4
Часть 1 2 3 1 2 3 4 1 2 3 1 2 3 4
Диаметр 3 4 4 3 4 3 3 4 4 7 6 4 3 4
Плотность сети 0,357 0,279 0,215 0,351 0,242 0,366 0,411 0,21 0,148 0,163 0,205 0,163 0,327 0,243
Средняя степень узла 10 5,3 6,452 7,364 4,6 6,222 9,04 5,04 5,4 4,07 4,095 3,1 3,273 3,882
Средняя взвешенная степень 96,2 44,2 55,3 64,2 53,6 61 113,6 34,64 35,1 32,2 36,762 10,9 51,5 38,9
Война/мир мир война смесь мир мир мир мир война война война война война война война
Категории свет, ростовы, болконские война свет, ростовы, война, андрей ростовы пьер, ростовы андрей, свет ростовы война, андрей, ростовы война война, пьер свет, война, философия война, философия война война, ростовы

Проверяем гипотезу

Проверяем гипотезу

Проверяем гипотезу

Проверяем гипотезу

Ср. драматургия:

Добавить topic modeling? 

Как исследовать персонажей?

Взвешенная степень

Центральность по посредничеству

Гипотеза?

Какие гипотезы возможны?

  • Можно выделить значимые группы (Ростовы, Болконские, Москва — Петербург, командование армии, павлоградцы Николая... но это банально)
  • Разные метрики высвечивают разные аспекты "важности" персонажа (макс.степень vs центральность по смежности)
  • для исследования системы персонажей полезнее диалоговая сеть / сеть заполнителей глагольных актантов

Evaluation?

Evaluation

  • Ручная экспертная сеть (для части данных)
    • сравнение не совпадения сети, а близости метрик
  • Тестирование литературных гипотез
  • Использование справочников, дайджестов

Кластеризация 

Кластеризация 

Старое

  • Семантические роли 
    • Skorinkin D., Bonch-Osmolovskaya A. (2016) Text mining War and Peace: Automatic extraction of character traits from literary pieces // Digital Scholarship in the Humanities.
  • Стилеметрия речи персонажей

Tolstoy.Graphs_February

By danilsko

Tolstoy.Graphs_February

  • 1,181