graph Tolstoy

 сетевой анализ "Войны и мира"

 

План презентации

  • Literary network analysis 101 (сжатое введение)
    • О каких сетях идет речь?
    • сети в литературоведении: почему это вообще имеет смысл?
  • Сетевой анализ "Войны и мира"
    • "война" vs "мир": проверка одной гипотезы количественным методом
    • герои и группы в романе

Networks 101

Что за сети? Зачем всё это?

Граф (сеть)

Граф (сеть)

Узлы (вершины)

Рёбра (дуги)

Взвешенный граф

У ребер могут быть веса

5

4

1

2

1

1

2

3

3

Сети в литературоведении

  • Узлы — персонажи (+ иногда топонимы)
  • Ребра — каким-то образом формализованные связи между ними

Сети в литературоведении

Как формализуется взаимодействие?

  • Разговор (коммуникация) персонажей
  • Любое явное взаимодействие героев
  • Социальные связи и отношения (дружба, родство, вражда)

Потенциал для количественных исследований

Эволюция структуры жанра

Гёте, "Гёц фон Берлихинген"

Эволюция структуры жанра

Шницлер, "Хоровод"

Изменения средних параметров сети за 200 лет

На русском материале

На русском материале

На русском материале

Есть ли смысл изучать одно произведение?

  • Distant reading все равно в конце превращается в scalable reading — "дальнее чтение с приближением" (Гете, Шницлер, Пушкин, Маяковский...) 
  • Довольно много работ с анализом одного или нескольких текстов (см. Agarwal, Alice in Wonderland)
  • Можно исследовать внутреннюю динамику/эволюцию текста ("Война и мир" делится на части и главы)

Agarwal А., Kotalwar А., Zheng J., Rambow O. (2013) Sinnet: Social interaction network extractor from text. In Sixth International Joint Conference on Natural Language Processing,

Есть ли смысл изучать одно произведение?

  • Distant reading все равно в конце превращается в scalable reading — "дальнее чтение с приближением" (Гете, Шницлер, Пушкин, Маяковский...) 
  • Довольно много работ с анализом одного или нескольких текстов (см. Agarwal, Alice in Wonderland)
  • Можно исследовать внутреннюю динамику/эволюцию текста ("Война и мир" делится на части и главы)

"Война и мир"  

Сетевой анализ

Анализ "Войны и мира" методами теории сетей 

  1. "Мир" и "война" в романе: количественные параметры сетей как показатель сюжетной динамики (проверка одной гипотезы) 
  2. Группы и герои: потенциал сетей для исследования системы персонажей 

"Мир" и "война": гипотеза

  • "мирные" и "военные" фрагменты романа отличаются интенсивностью взаимодействия

=> 

  • ​сети для "мирных" и "военных" частей устойчиво различны по ряду параметров

Предпосылки гипотезы

  • "Индивидуалистичность" войны у Толстого (герой на поле боя часто один, описывается чувство "которое есть во мне, в нем, <...> в каждом солдате")
  • Формальные работы по сравнению комедии и трагедии (у трагедии устойчиво ниже плотность сети)

Если утрировать, то...

  • ...я надеялся получить что-то такое:

 И получил такое (спойлер!):

Том 1, часть 2 ("война")

Том 1, часть 1 ("мир")

 И получил такое (спойлер!):

Том 4, часть 3 ("война")

Том 2, часть 1 ("мир")

Что нужно для проверки гипотезы?

 

  1. формализовать и выделить взаимодействия (придумать алгоритм извлечения сетей) 
  2. определить, формализовать интересующие нас параметры сети (и почему именно эти)
  3. придумать оценку (evaluation) автоматически извлеченных сетей
  4. разделить фрагменты романа на "мирные" и "военные" (это, кажется, несложно)
  5. для каждого фрагмента романа измерить корреляцию выбранных параметров сети с "мирностью"/"военностью" 

Алгоритм извлечения сети

  1. Извлечение упоминаний персонажей (с учетом анафорических упоминаний, кореферентности)
  2. Формализация взаимодействия между персонажами

Формализация взаимодействия

(для компьютера)

  • Совместная встречаемость (cooccurrence network)
  • Диалоги (conversational network)

Формализация взаимодействия

(для компьютера)

  • Совместная встречаемость (cooccurrence network)
    • Просто и в целом работает, но много мусора
  • Диалоги (conversational network)
    • Это сложно

Формализация взаимодействия

(для компьютера)

  • Совместная встречаемость (cooccurrence network)
    • Просто и в целом работает, но много мусора
  • Диалоги (conversational network)
    • Это сложно
  • (NEW) Заполнение ролей одного предиката
    • Проще conversational, чище cooccurrence, ближе к сетям, построенным человеком

Заполнение ролей одного предиката — примеры

  • Обедало человек двадцать, в том числе Долохов и Денисов.

  • он [Николай] вызвал Наташу и спросил, что такое

  • Il faut que vous sachiez que c'est une femme,- сказал Андрей Пьеру.
  • Это были Наташа с Соней и Петей, которые пришли наведаться, не встал ли.

  • Голубчик, Денисов! - взвизгнула Наташа, не помнившая себя от восторга, подскочила к нему, обняла и поцеловала его.

Теперь можно строить сети!

"Война и мир" целиком

Но тут не проверить нашу гипотезу!

Попробуем по частям томов

I том 

III том

Эпилог

Как сделаны визуализации?

  • Укладка: Force Atlas 2 (разреженность 1000)
  • Размер узла пропорционален степени (числу связей с другими узлами)
  • Цвет узла: modularity clustering 1
  • Толщина ребра: вес связи (=сколько раз в этой части герои оказывались под одним предикатом)

1Blondel V.D., Guillaume J., Lambiotte R., Lefebvre E., (2008), Fast unfolding of communities in large networks, in Journal of Statistical Mechanics: Theory and Experiment (10), p. 1000 )

Минута красивых картинок

1 том 1 часть

1 том 2 часть

1 том 3 часть

2 том 1 часть

2 том 2 часть

2 том 3 часть

2 том 4 часть

2 том 5 часть

3 том 1 часть

3 том 2 часть

3 том 3 часть

4 том 1 часть

4 том 2 часть

4 том 3 часть

4 том 4 часть

Эпилог 1

Эпилог 2

Какие параметры (метрики) сетей нас интересуют?

Параметры

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Параметры сети

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Параметры сети

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Итак, мы

  • Придумали, как извлекать сети персонажей
  • Выбрали формальные параметры (метрики сетей)
  • Нашли хорошую корреляцию этих параметров с "мирностью"/"военностью" частей романа
  • Оценили (качественно и количественно!) достоверность этих сетей

А теперь цифры

"Военные" и "мирные" части

распределены руками, 1 Мир, 0 — Война

Параметр Корреляция
Плотность 0.65
Диаметр -0.533
Средняя степень 0.73
Средняя взвешенная степень 0.714
N компонент связности -0.491

Корреляция параметров сети с показателем "война/мир"

Но можно ли верить этим сетям?

Evaluation

  • Вручную создаем сети для 30 глав (эталоны)
  • Сравниваем корреляцию параметров тестируемых сетей с эталонами
    • Корреляция плотности сети эталона с сетью-cooccurrence
    • Корреляция плотности сети с syntax-based сетью (заполнение ролей одного предиката)

Evaluation

Parameter

 
Correlation with co-occurrence network Correlation with ‘syntax-based’ network
Плотность  -0.126 0,84
Диаметр -0.456 0,219
Средняя степень 0,748 0,923

Evaluation

Parameter

 
Correlation with co-occurrence network Correlation with ‘syntax-based’ network
Плотность  -0.126 0,84
Диаметр -0.456 0,219
Средняя степень 0,748 0,923

Итого мы:

  • Придумали, как извлекать сети персонажей
  • Выбрали формальные параметры (метрики сетей)
  • Нашли хорошую корреляцию этих параметров с "мирностью"/"военностью" частей романа
  • Оценили (качественно и количественно!) достоверность этих сетей

И еще 

  • Увидели, что сети дают возможность формального анализа произведения в полуавтоматическом (а в перспективе — в полностью автоматическом режиме)

Что хочется сделать

В «Войне и мире» очень много значат семейные объединения, принадлежность героя к «породе». Собственно, Болконские или Ростовы — это больше чем семьи, это целые жизненные уклады <...>.

С. Г. Бочаров. Роман Л. Толстого "Война и мир"

 

 

Группы персонажей 

Точка зрения читателя и центральность героя

Толстой в «Войне и мире», как правило, представляет события и картины в восприятии кого-либо из персонажей, пользуясь его «субъективной призмой».

С. Г. Бочаров. Роман Л. Толстого "Война и мир"

 

 

Indeed, the pace was so slow, and the plot so elusive, that many reviewers were unable to distinguish who the main characters were going to be! <...>

For example we now take for granted that  the principal characters are Pierre, Andrei and Natasha. Thus we may be surprised that reviewers of the first installmentseither couold not identify who the main characters were or else identified them incorrectly

Gary Saul Morson. (1987) Hidden in Plain View: Narrative and Creative Potentials in 'War and Peace'

 

 

Например, 1 том

I

II

III

Спасибо за внимание!

Agarwal А., Kotalwar А., Zheng J., Rambow O. (2013) Sinnet: Social interaction network extractor from text. In Sixth International Joint Conference on Natural Language Processing,

Tolstoy.Graphs_Tartu

By danilsko

Tolstoy.Graphs_Tartu

  • 1,112