Large-scale analysis

Seeing the 'unseen'

Network analysis of 'War and peace'

Why?

To test a literary hypothesis

  • 'Wartime' and 'peaceful' parts of the novel might have different intensity of interactions
  • Networks are about interactions

=> 

  • ​This difference can be measured with network statistics (network density, diameter, average degree)...
  • ...and maybe even seen with naked eye

I hoped for something like

Some literary studies backing the hypothesis

  • Tolstoy's emphasis on individual war experience [G.S. Morson, 1987]
  • герой на поле боя часто один, описывается чувство "которое есть во мне, в нем, <...> в каждом солдате"

Some literary studies backing the hypothesis

How?

Extraction steps

  1. Character mentions (Nodes)
    • ABBYY Compreno  
    • + list of characters from Wikipedia
  2. Character interactions (Edges)
    • How to automate extraction?

Character interactions. Is there an easy way?

  • Cooccurrence network?
    • It works, but the network is rather dense and dirty
    • One example of unwanted interaction:

Александр I, умиротворитель Европы, человек, с молодых лет стремившийся только к благу своих народов, первый зачинщик либеральных нововведений в своем отечестве, теперь, когда, кажется, он владеет наибольшей властью и потому возможностью сделать благо своих народов, в то время как Наполеон в изгнании делает детские и лживые планы о том, как бы он осчастливил человечество, если бы имел власт

Character interactions. Is there an easy way?

  • Conversational network (dialogue interactions)
    • Much cleaner and more interpretable
    • Hard to extract (speaker is often implicit/anaphoric, listerner almost always implicit)
    • Not all interactions are verbal

Character interactions

My (kludgy) suggestion:

  • Siblings in a syntactic tree (~=заполнение персонажами валентностей одной вершины)

​[Берг] подал руку [Вере]. [Улыбающаяся Жюли Карагина] пошла Николаем] к столу.

Том I, часть 1, глава 15

Character interactions

My (kludgy) suggestion:

  • Siblings in a syntactic tree (~=заполнение персонажами валентностей одной вершины)
  • Easier to extract than a conversational network
  • Much cleaner than a cooccurrence network
  • Appears to be closer to handcrafted standard networks 

Cooccurrence VS syntactic: 

Interactions (edges):

  • - Что же ты не пьян нынче? - сказал Несвицкий Денисову, когда он подъехал к нему.

  • Пьер, все более и более приходивший в волнение во время этого разговора, встал и подошел к княгине.
    он [Николай] вызвал Наташу и спросил, что такое

  • Голубчик, Денисов! - взвизгнула Наташа, не помнившая себя от восторга, подскочила к нему, обняла и поцеловала его

Interactions (edges):

  • Графинюшка мудрила с Верой,- сказал граф .- Ну, да что ж! Все-таки славная вышла,- прибавил он, одобрительно подмигивая Вере .
  • - Ну, пей же всю,- сказал Анатоль, подавая последний стакан Пьеру,- а то не пущу!
  • Все оживление Николая исчезло. Он выждал первый перерыв разговора и с расстроенным лицом вышел из комнаты отыскивать Соню
  • Обедало человек двадцать, в том числе Долохов и Денисов.
  • Это были Наташа с Соней и Петей, которые пришли наведаться, не встал ли.

What sort of interactions are they?

Conversations

  • Il faut que vous sachiez que c'est une femme,- сказал  Андрей  Пьеру
  • Это что-то было тончайшее духовное извлечение из вчерашнего его разговора с Каратаевым.
  • - Ah! ne me parlez pas de ce départ, ne m'en parlez pas. Je ne veux pas en entendre parler,- заговорила княгиня таким капризно-игривым тоном, каким она говорила с Ипполитом в гостиной <...>
  • Пьер опять вопросительно посмотрел на Анну Михайловну, спрашивая теперь, что ему делать.

Spatial proximity

  • Только подъезжая к Багратиону, Ростов опять пустил свою лошадь в галоп и, держа руку у козырька, подъехал к нему.
  • Пьер, все более и более приходивший в волнение во время этого разговора, встал и подошел к княгине. Он, казалось, не мог переносить вида слез и сам готов был заплакать.
  • Ростов, тяжело чувствовавший отсутствие своего друга, не имея со времени его отъезда никаких известий о нем и беспокоясь о ходе его дела и раны, воспользовался перемирием и отпросился в госпиталь проведать Денисова.

Physical contact

  • Анна Михайловна мгновенно поняла, в чем дело, и уж нагнулась, чтобы в должную минуту ловко обнять графиню.
  • - Вы, графинюшка, мотовка известная,- проговорил граф и, поцеловав у жены руку, ушел опять в кабинет.
  • Голубчик, Денисов! - взвизгнула Наташа, не помнившая себя от восторга, подскочила к нему, обняла и поцеловала его.

Perception, thought

  • Борис замолчал и, не снимая шинели, вопросительно смотрел на мать
  • <...> Ростов мгновенно узнал своего оплакиваемого обожаемого государя.

Living in the same place

  • И несмотря на то, что Анатоль проживал десятки тысяч, Долохов жил с ним и успел себя поставить так, что Анатоль и все знавшие их уважали Долохова больше, чем Анатоля.
  •  - Я живу у графини Ростовой,- сказал Борис, опять прибавив,- ваше сиятельство.

But still, do these networks make sense?

evaluation attempts

Step 1: Visual analysis (simply looking at them)

Entire network

A bit too much

Let's try separate parts of the novel

I том 

III том

Эпилог

How we visualise

  • Layout: Force Atlas 2 (force-based layout)
  • Node size proportional to node degree 
  • Node color: modularity clustering 1
  • Edge weight & thickness: number of interactions

1Blondel V.D., Guillaume J., Lambiotte R., Lefebvre E., (2008), Fast unfolding of communities in large networks, in Journal of Statistical Mechanics: Theory and Experiment (10), p. 1000 )

1 том 1 часть

1 том 2 часть

 First two parts, different vizualization:

Том 1, часть 2 ("война")

Том 1, часть 1 ("мир")

One can easily see higher network density and higher average degree

1 том 3 часть

2 том 1 часть

2 том 2 часть

2 том 3 часть

2 том 4 часть

The numbers behind Sonya and Nikolai getting closer

Text

Network for 2 том 4 часть

Том 2, часть 4, глава 11

Том 2, часть 4, глава 11

Играли ли в колечко, в веревочку или рублик, разговаривали ли, как теперь, Николай не отходил от Сони и совсем новыми глазами смотрел на нее

<...>

Соня шла, закутавшись в шубку. Она была уже в двух шагах, когда увидала его; она увидала его тоже не таким, каким она знала и какого всегда немножко боялась. Он был в женском платье с спутанными волосами и с счастливой и новой для Сони улыбкой. Соня быстро подбежала к нему.

Том 2, часть 4, глава 8

Том 2, часть 4, глава 8

 Граф Илья Андреич вышел из предводителей, потому что эта должность была сопряжена с слишком большими расходами. Но дела его все не поправлялись. Часто Наташа и Николай видели тайные, беспокойные переговоры родителей и слышали толки о продаже богатого родового ростовского дома и подмосковной

<...>

Она высказала ему, что вся надежда поправления дела основана теперь на его женитьбе на Карагиной.

<...>

Я не могу приказывать своему чувству, - говорил он сам себе. - Ежели я люблю Соню, то чувство мое сильнее и выше всего для меня'.

<...>

В доме Ростовых было невесело.

2 том 5 часть

3 том 1 часть

3 том 2 часть

3 том 3 часть

4 том 1 часть

4 том 2 часть

4 том 3 часть

 Comparing again:

Том 4, часть 3 ("война")

Том 2, часть 1 ("мир")

Step 2. Comparing to handcrafted networks

Evaluation

  • Create handcrafted networks for about 30 chapters
  • Find the correlation of network parameters between handcrafted and automatically extracted networks
    • Density correlation
    • Average degree correlation
    • Diameter correlation

Evaluation

Parameter

 
Correlation with co-occurrence network Correlation with ‘syntax-based’ network
Density -0.126 0,84
Diameter -0.456 0,219
Average degree 0,748 0,923

So, we

  • Came up with a way to extract character networks
  • Checked that these networks correspond to human understanding of interactions between characters 
  • Now we can measure the parameters of the networks and test the hypothesis!

Testing a hypothesis

(at last!)

"War" and "peace" parts

annotated manually, 1 for "peace", 0 for "war"

Density

Diameter

Average degree

Average weighted degree

Network parameter Correlation with war/peace value
Density 0.65
Diameter -0.533
Average degree 0.73
Average weighted degree 0.714
N conn. components -0.491

Correlation of network parameters with war/peace value 

...and this is somewhat visible:

Thank you for your attention!

Thank you for your attention!

Если утрировать, то...

  • ...я надеялся получить что-то такое:

 И получил такое (спойлер!):

Том 1, часть 2 ("война")

Том 1, часть 1 ("мир")

 И получил такое (спойлер!):

Том 4, часть 3 ("война")

Том 2, часть 1 ("мир")

Что нужно для проверки гипотезы?

 

  1. формализовать и выделить взаимодействия (придумать алгоритм извлечения сетей) 
  2. определить, формализовать интересующие нас параметры сети (и почему именно эти)
  3. разделить фрагменты романа на "мирные" и "военные" (это, кажется, несложно)
  4. для каждого фрагмента романа измерить корреляцию выбранных параметров сети с "мирностью"/"военностью" 

Итого мы:

  • Придумали, как извлекать сети персонажей
  • Выбрали формальные параметры (метрики сетей)
  • Нашли хорошую корреляцию этих параметров с "мирностью"/"военностью" частей романа
  • Оценили (качественно и количественно!) достоверность этих сетей

И еще 

  • Увидели, что сети дают возможность формального анализа произведения в полуавтоматическом (а в перспективе — в полностью автоматическом режиме)

Что хочется сделать

В «Войне и мире» очень много значат семейные объединения, принадлежность героя к «породе». Собственно, Болконские или Ростовы — это больше чем семьи, это целые жизненные уклады <...>.

С. Г. Бочаров. Роман Л. Толстого "Война и мир"

 

 

Группы персонажей 

Точка зрения читателя и центральность героя

Толстой в «Войне и мире», как правило, представляет события и картины в восприятии кого-либо из персонажей, пользуясь его «субъективной призмой».

С. Г. Бочаров. Роман Л. Толстого "Война и мир"

 

 

Indeed, the pace was so slow, and the plot so elusive, that many reviewers were unable to distinguish who the main characters were going to be! <...>

For example we now take for granted that  the principal characters are Pierre, Andrei and Natasha. Thus we may be surprised that reviewers of the first installmentseither couold not identify who the main characters were or else identified them incorrectly

Gary Saul Morson. (1987) Hidden in Plain View: Narrative and Creative Potentials in 'War and Peace'

 

 

Например, 1 том

I

II

III

Спасибо за внимание!

Алгоритм извлечения сети

  1. Извлечение упоминаний персонажей (с учетом анафорических упоминаний, кореферентности)
  2. Формализация взаимодействия между персонажами

Формализация взаимодействия

(для компьютера)

  • Совместная встречаемость (cooccurrence network)
    • Просто и в целом работает, но много мусора
  • Диалоги (conversational network)
    • Это сложно
  • (NEW) Заполнение ролей одного предиката
    • Проще conversational, чище cooccurrence, ближе к сетям, построенным человеком

Заполнение ролей одного предиката — примеры

  • Обедало человек двадцать, в том числе Долохов и Денисов.

  • он [Николай] вызвал Наташу и спросил, что такое

  • Il faut que vous sachiez que c'est une femme,- сказал Андрей Пьеру.
  • Это были Наташа с Соней и Петей, которые пришли наведаться, не встал ли.

  • Голубчик, Денисов! - взвизгнула Наташа, не помнившая себя от восторга, подскочила к нему, обняла и поцеловала его.

Итак, мы

  • Придумали, как извлекать сети персонажей
  • Увидели, что эти сети как-то соотносятся с нашим пониманием сюжета частей
  • Выбрали формальные параметры (метрики сетей), связь которых с "военностью"/"мирностью" мы хотим проверить

Можно проверять гипотезу!

Но можно ли верить этим сетям?

Evaluation

  • Вручную создаем сети для 30 глав (эталоны)
  • Сравниваем корреляцию параметров тестируемых сетей с эталонами
    • Корреляция плотности сети эталона с сетью-cooccurrence
    • Корреляция плотности сети с syntax-based сетью (заполнение ролей одного предиката)

Evaluation

Parameter

 
Correlation with co-occurrence network Correlation with ‘syntax-based’ network
Плотность  -0.126 0,84
Диаметр -0.456 0,219
Средняя степень 0,748 0,923

Agarwal А., Kotalwar А., Zheng J., Rambow O. (2013) Sinnet: Social interaction network extractor from text. In Sixth International Joint Conference on Natural Language Processing,

Взвешенный граф

У ребер могут быть веса

5

4

1

2

1

1

2

3

3

Made with Slides.com