граф Толстой

 сетевой анализ "Войны и мира"

 

План презентации

  • Literary network analysis 101 (сжатое введение)
    • О каких сетях идет речь?
    • сети в литературоведении: почему это вообще имеет смысл?
  • Сетевой анализ "Войны и мира"
    • "война" vs "мир": проверка одной гипотезы количественным методом
    • герои и группы в романе

Networks 101

Что за сети? Зачем всё это?

Граф (сеть)

Граф (сеть)

Узлы (вершины)

Рёбра (дуги)

Сети в литературоведении

  • Узлы — персонажи (+ иногда топонимы)
  • Ребра — каким-то образом формализованные связи между ними

Сети в литературоведении

Как формализуется взаимодействие?

  • Разговор (коммуникация) персонажей
  • Любое явное взаимодействие героев
  • Социальные связи и отношения (дружба, родство, вражда)

Потенциал для количественных исследований

Изменения средних параметров сети за 200 лет

Эволюция структуры жанра

Гёте, "Гёц фон Берлихинген"

Эволюция структуры жанра

Шницлер, "Хоровод"

"Война и мир"  

Сетевой анализ

"Мир" и "война": гипотеза

  • "мирные" и "военные" фрагменты романа отличаются интенсивностью взаимодействия

=> 

  • ​сети для "мирных" и "военных" частей устойчиво различны по ряду параметров

Предпосылки гипотезы

  • "Индивидуалистичность" войны у Толстого (герой на поле боя часто один, описывается чувство "которое есть во мне, в нем, <...> в каждом солдате")
  • Исследования по сравнению сетей комедии и трагедии (у трагедии устойчиво ниже плотность сети)

Если утрировать, то...

  • ...я надеялся получить что-то такое:

 И получил такое (спойлер!):

Том 1, часть 2 ("война")

Том 1, часть 1 ("мир")

 И получил такое (спойлер!):

Том 4, часть 3 ("война")

Том 2, часть 1 ("мир")

Что нужно для проверки гипотезы?

 

  1. формализовать и выделить взаимодействия (придумать алгоритм извлечения сетей) 
  2. определить, формализовать интересующие нас параметры сети (и почему именно эти)
  3. разделить фрагменты романа на "мирные" и "военные" (это, кажется, несложно)
  4. для каждого фрагмента романа измерить корреляцию выбранных параметров сети с "мирностью"/"военностью" 

Алгоритм извлечения сети

  1. Извлечение упоминаний персонажей (с учетом анафорических упоминаний, кореферентности)
  2. Формализация взаимодействия между персонажами

Формализация взаимодействия

(для компьютера)

  • Совместная встречаемость (cooccurrence network)
    • Просто и в целом работает, но много мусора
  • Диалоги (conversational network)
    • Это сложно
  • (NEW) Заполнение ролей одного предиката
    • Проще conversational, чище cooccurrence, ближе к сетям, построенным человеком

Заполнение ролей одного предиката — примеры

  • Обедало человек двадцать, в том числе Долохов и Денисов.

  • он [Николай] вызвал Наташу и спросил, что такое

  • Il faut que vous sachiez que c'est une femme,- сказал Андрей Пьеру.
  • Это были Наташа с Соней и Петей, которые пришли наведаться, не встал ли.

  • Голубчик, Денисов! - взвизгнула Наташа, не помнившая себя от восторга, подскочила к нему, обняла и поцеловала его.

Теперь можно строить сети!

"Война и мир" целиком

Но тут не проверить нашу гипотезу!

Попробуем по частям томов

I том 

III том

Эпилог

Как сделаны визуализации?

  • Укладка: силовой алгоритм (группирует сильно связанные узлы)
  • Размер узла пропорционален степени (числу связей с другими узлами)
  • Цвет узла: modularity clustering 1
  • Толщина ребра: вес связи (=сколько раз в этой части герои оказывались под одним предикатом)

1Blondel V.D., Guillaume J., Lambiotte R., Lefebvre E., (2008), Fast unfolding of communities in large networks, in Journal of Statistical Mechanics: Theory and Experiment (10), p. 1000 )

1 том 1 часть

1 том 2 часть

 Они же (видно разную плотность)

Том 1, часть 2 ("война")

Том 1, часть 1 ("мир")

Выше плотность

Больше связей у узла (в среднем)

1 том 3 часть

2 том 1 часть

2 том 2 часть

2 том 3 часть

2 том 4 часть

2 том 5 часть

3 том 1 часть

3 том 2 часть

3 том 3 часть

4 том 1 часть

4 том 2 часть

4 том 3 часть

4 том 4 часть

Эпилог 1

Эпилог 2

Итак, мы

  • Придумали, как извлекать сети персонажей
  • Увидели, что эти сети как-то соотносятся с нашим пониманием сюжета частей

Какие параметры (метрики) этих сетей нас интересуют?

Параметры

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Параметры сети

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Параметры сети

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Итак, мы

  • Придумали, как извлекать сети персонажей
  • Увидели, что эти сети как-то соотносятся с нашим пониманием сюжета частей
  • Выбрали формальные параметры (метрики сетей), связь которых с "военностью"/"мирностью" мы хотим проверить

Можно проверять гипотезу!

"Военные" и "мирные" части

распределены руками, 1 Мир, 0 — Война

Проверяем гипотезу

Проверяем гипотезу

Проверяем гипотезу

Проверяем гипотезу

Параметр Корреляция
Плотность 0.65
Диаметр -0.533
Средняя степень 0.73
Средняя взвешенная степень 0.714
N компонент связности -0.491

Корреляция параметров сети с показателем "война/мир"

Визуально

Но можно ли верить этим сетям?

Evaluation

  • Вручную создаем сети для 30 глав (эталоны)
  • Сравниваем корреляцию параметров тестируемых сетей с эталонами
    • Корреляция плотности сети эталона с сетью-cooccurrence
    • Корреляция плотности сети с syntax-based сетью (заполнение ролей одного предиката)

Evaluation

Parameter

 
Correlation with co-occurrence network Correlation with ‘syntax-based’ network
Плотность  -0.126 0,84
Диаметр -0.456 0,219
Средняя степень 0,748 0,923

Итого мы:

  • Придумали, как извлекать сети персонажей
  • Выбрали формальные параметры (метрики сетей)
  • Нашли хорошую корреляцию этих параметров с "мирностью"/"военностью" частей романа
  • Оценили (качественно и количественно!) достоверность этих сетей

И еще 

  • Увидели, что сети дают возможность формального анализа произведения в полуавтоматическом (а в перспективе — в полностью автоматическом режиме)

Что хочется сделать

В «Войне и мире» очень много значат семейные объединения, принадлежность героя к «породе». Собственно, Болконские или Ростовы — это больше чем семьи, это целые жизненные уклады <...>.

С. Г. Бочаров. Роман Л. Толстого "Война и мир"

 

 

Группы персонажей 

Точка зрения читателя и центральность героя

Толстой в «Войне и мире», как правило, представляет события и картины в восприятии кого-либо из персонажей, пользуясь его «субъективной призмой».

С. Г. Бочаров. Роман Л. Толстого "Война и мир"

 

 

Indeed, the pace was so slow, and the plot so elusive, that many reviewers were unable to distinguish who the main characters were going to be! <...>

For example we now take for granted that  the principal characters are Pierre, Andrei and Natasha. Thus we may be surprised that reviewers of the first installmentseither couold not identify who the main characters were or else identified them incorrectly

Gary Saul Morson. (1987) Hidden in Plain View: Narrative and Creative Potentials in 'War and Peace'

 

 

Например, 1 том

I

II

III

Спасибо за внимание!

Agarwal А., Kotalwar А., Zheng J., Rambow O. (2013) Sinnet: Social interaction network extractor from text. In Sixth International Joint Conference on Natural Language Processing,

Взвешенный граф

У ребер могут быть веса

5

4

1

2

1

1

2

3

3

Tolstoy.Graphs_Tartu_Short

By danilsko

Tolstoy.Graphs_Tartu_Short

  • 1,113