graph Tolstoy

 сетевой анализ "Войны и мира"

 

План презентации

  • Networks 101 (введение)
    • О каких сетях идет речь?
    • сети в литературоведении: почему это вообще имеет смысл?
  • Сетевой анализ "Войны и мира"
    • "война" vs "мир": проверка одной гипотезы количественным методом
    • герои и группы в романе
  • Указатель к 90-томнику как сеть
    • Вселенная Толстого
    • Что можно понять про художественное наследие Толстого

Слайды

  • Презентация:  goo.gl/XiFXMj
    • ​вперед — пробел, назад — shift+пробел
  • Презентация live: goo.gl/3VpWQT
    • листается параллельно со мной

Networks 101

Что за сети? Зачем всё это?

Граф (сеть)

Граф (сеть)

Узлы (вершины)

Рёбра (дуги)

Сети в литературоведении

  • Узлы — персонажи (+ иногда топонимы)
  • Ребра — каким-то образом формализованные связи между ними

Сети в литературоведении

Сети в литературоведении

Agarwal А., Kotalwar А., Zheng J., Rambow O. (2013) Sinnet: Social interaction network extractor from text. In Sixth International Joint Conference on Natural Language Processing,

Эволюция структуры жанра

Гёте, "Гёц фон Берлихинген"

Эволюция структуры жанра

Шницлер, "Хоровод"

На русском материале

На русском материале

На русском материале

Есть ли смысл изучать одно произведение?

  • Distant reading все равно в конце превращается в scalable reading — "дальнее чтение с приближением" (Гете, Шницлер, Пушкин, Маяковский...) 
  • Довольно много работ с анализом одного или нескольких текстов (см. Agarwal)
  • Можно исследовать внутреннюю динамику/эволюцию текста ("Война и мир" делится на части и главы)

Agarwal А., Kotalwar А., Zheng J., Rambow O. (2013) Sinnet: Social interaction network extractor from text. In Sixth International Joint Conference on Natural Language Processing,

Ссылки

  • Agarwal A., Kotalwar A., Rambow O. (2013), Automatic Extraction of Social Networks from Literary Text: A Case Study on Alice in Wonderland, Proceedings of IJCNLP 2013, Nagoya, Japan.
  • Agarwal A., Corvalan A., Jensen J., Rambow O. (2012), Social network analysis of Alice in Wonderland. Proceedings of the NAACL HLT 2012 Workshop on Computational Linguistics for Literature, pages 88–96, Montreal, Canada.
  • Alberich, R., Miro-Julia, J., Rossello, F. (2002), Marvel universe looks almost like a real social network. Preprint arXiv:cond-mat/0202174.
  • Bodrova, A., Bocharov, V., (2014), Relationship Extraction from Literary Fiction. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2014”, Bekasovo
  • Elson, D. K., Dames, N. and McKeown, K. (2010), Extracting Social Networks from Literary Fiction, Proceedings of ACL 2010, Uppsala, Sweden.
  • Lee J., Yeung C. Y. (2012), Extracting Networks of People and Places from Literary Texts. Proceedings of 26th Pacific Asia Conference on Language, Information, and Computation (PACLIC). pp. 209-218

Ссылки — 2

  • Moretti F. (2013), Distant Reading. Verso, London
  • Moretti F. (2007), Graphs, Maps, Trees: Abstract Models for a Literary History. Verso, London
  • Moretti F. (2011), Network Theory, Plot Analysis. Stanford Literary Lab Pamphlets, Stanford, CA.
  • Park, Gyeong-Mi, Kim, Sung-Hwan (2013), Structural Analysis on Social Network Constructed from Characters in Literature Texts, Journal of Computers, Issue 8
  • Trilcke P., Fischer F., Kampkaspar D. (2015a), Digitale Netzwerkanalyse dramatischer Texte, in: DHd2015. Von Daten zu Erkenntnissen 23. bis 27. Graz. Book of Abstracts. Austrian Centre for Digital Humanities, 2015.
  • Trilcke P., Fischer F., Göbel M., Kampkaspar D. (2015b),  Comedy vs. Tragedy: Network Values by Genre. Network Analysis of Dramatic Texts, available at: https://dlina.github.io/Network-Values-by-Genre/
  • Celikyilmaz, A. et al. (2010). The Actor-Topic Model for Extracting Social Networks in Literary Narrative, NIPS Workshop: Machine Learning for Social Computing.

"Война и мир"  

Сетевой анализ

Анализ "Войны и мира" методами теории сетей 

  1. "Мир" и "война" в романе: количественные параметры сетей как показатель сюжетной динамики (проверка одной гипотезы) 
  2. Переход точки зрения: количественные параметры отдельных узлов-персонажей как признак их значимости
  3. Автоматическое выделение значимых подгрупп персонажей (кластеризация)

"Мир" и "война"

  • Гипотеза: сети для "мирных" и "военных" частей отличаются по ряду значимых параметров
  • Чтобы это проверить, нужно:
    1. определить параметры сети (и почему именно эти)
    2. придумать принцип и алгоритм извлечения сетей; формализация взаимодействия
    3. придумать оценку (evaluation) автоматически извлеченных сетей
    4. разделить части на мирные и военные (но это, кажется, несложно)

Параметры

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Параметры сети

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Параметры сети

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Алгоритм извлечения сети

  1. Извлечение персонажей
    1. NER: Compreno, специальная модель
    2. Местоименная анафора: Compreno
    3. Именная кореферентность: с опорой на списки имен (aliases)
  2. Формализация взаимодействия между персонажами

Формализация взаимодействия

  • Совместная встречаемость (cooccurrence network)
  • Диалоги (conversational network)

Формализация взаимодействия

  • Совместная встречаемость (cooccurrence network)
  • Диалоги (conversational network)
  • (NEW) Заполнение ролей одного предиката

Заполнение ролей одного предиката — примеры

  • Обедало человек двадцать, в том числе Долохов и Денисов.

  • он [Николай] вызвал Наташу и спросил, что такое

  • Il faut que vous sachiez que c'est une femme,- сказал Андрей Пьеру.
  • Это были Наташа с Соней и Петей, которые пришли наведаться, не встал ли.

  • Голубчик, Денисов! - взвизгнула Наташа, не помнившая себя от восторга, подскочила к нему, обняла и поцеловала его.

Evaluation

  • Вручную создаем сети для 30 глав (эталоны)
  • Сравниваем корреляцию параметров тестируемых сетей с эталонами
    • Корреляция плотности сети эталона с сетью-cooccurrence и syntax-based сетью (заполнение ролей одного предиката)
  • Выбираем сеть с лучшей корреляцией 

Evaluation

Parameter

 
Correlation with co-occurrence network Correlation with ‘syntax-based’ network
Плотность  -0.126 0,84
Диаметр -0.456 0,219
Средняя степень 0,748 0,923

Evaluation

Parameter

 
Correlation with co-occurrence network Correlation with ‘syntax-based’ network
Плотность  -0.126 0,84
Диаметр -0.456 0,219
Средняя степень 0,748 0,923

Теперь можно строить сети!

"Война и мир" целиком

Но тут не проверить нашу гипотезу!

Попробуем по частям томов

I том 

III том

Эпилог

Как сделаны визуализации?

  • Укладка: Force Atlas 2 (разреженность 1000)
  • Размер узла пропорционален степени
  • Цвет узла: modularity clustering 1
  • Толщина ребра: вес связи (=сколько раз в этой части герои оказывались под одним предикатом)

1Blondel V.D., Guillaume J., Lambiotte R., Lefebvre E., (2008), Fast unfolding of communities in large networks, in Journal of Statistical Mechanics: Theory and Experiment (10), p. 1000 )

Минута красивых картинок

1 том 1 часть

1 том 2 часть

1 том 3 часть

2 том 1 часть

2 том 2 часть

2 том 3 часть

2 том 4 часть

2 том 5 часть

3 том 1 часть

3 том 2 часть

3 том 3 часть

4 том 1 часть

4 том 2 часть

4 том 3 часть

4 том 4 часть

Эпилог 1

Эпилог 2

А теперь цифры

"Военные" и "мирные" части

распределены руками, 1 Мир, 0 — Война

Параметр Корреляция
Плотность 0.65
Диаметр -0.533
Средняя степень 0.73
Средняя взвешенная степень 0.714
N компонент связности -0.491

Корреляция параметров сети с показателем "война/мир"

Центральность персонажа

Толстой в «Войне и мире», как правило, представляет события и картины в восприятии кого-либо из персонажей, пользуясь его «субъективной призмой».

С. Г. Бочаров. Роман Л. Толстого "Война и мир"

 

 

Indeed, the pace was so slow, and the plot so elusive, that many reviewers were unable to distinguish who the main characters were going to be! <...>

For example we now take for granted that  the principal characters are Pierre, Andrei and Natasha. Thus we may be surprised that reviewers of the first installmentseither couold not identify who the main characters were or else identified them incorrectly

Gary Saul Morson. (1987) Hidden in Plain View: Narrative and Creative Potentials in 'War and Peace'

 

 

Посмотрим на 1 том

I

II

III

Макс. степень по частям:

Макс. взвешенная степень:

Учёт интенсивности связей ,кажется, дает более адекватную картину

Выделение групп

Ибо курагинской агрессии подвергаются не только княжна Марья, не только  Наташа, но и Болконские, но и Ростовы. В «Войне и мире» очень много значат семейные объединения, принадлежность героя к «породе». Собственно, Болконские или Ростовы — это больше чем семьи, это целые жизненные уклады <...>.

С. Г. Бочаров. Роман Л. Толстого "Война и мир"

 

 

1 том 1 часть

1 том 2 часть

2 том 3 часть

1 том 3 часть

4 том 1 часть

3 том 2 часть

И все это похоже на... 

Финальная цитата

In the world of War and peace, occasional clusters of regularity interact with elements of the random

Gary Saul Morson. (1987) Hidden in Plain View: Narrative and Creative Potentials in 'War and Peace'

 

Tolstoy.Graphs_SciSeminar

By danilsko

Tolstoy.Graphs_SciSeminar

  • 1,137