Literary networks

 Анализ сетей в художественном тексте

 

План презентации

  • Введение в сетевой анализ (Networks 101) 
    • О каких сетях идет речь?
    • Cети в художественном тексте
  • Может ли компьютер прочесть Толстого? Что (НЕ) показывает сетевой анализ "Войны и мира".
  • Сети и структура пьесы (мини-практика сетевого анализа в художественном тексте) 

Networks 101

Что за сети? Зачем всё это?

Сеть (граф)

Сеть (граф)

Узлы (вершины)

Рёбра (дуги)

Что можно представить в таком виде?

Острова и мосты:

Задача о семи кёнигсбергских мостах

Аэропорты 

Метро

Взвешенный граф

2

3

3

2

1

5

Сайты в интернете

Википедия

Социальные сети (at last!)

Karate club

Social Network Analysis

  • В современном виде появился в 1930-е годы в социальных науках
  • Как всегда, прорыв произошёл в 1960-е (компьютеры+бум социологии + структурализм)
  • Второй бум в 1990-е – 2000-е (интернет, вики-технолгии, социальные сети)

А в художественном произведении можно?

Колобок

Гамлет

Гамлет

Сети в художественном произведении

  • Узлы — персонажи
  • Ребра — каким-то образом формализованные связи между ними

More Shakespeare!

Agarwal А., Kotalwar А., Zheng J., Rambow O. (2013) Sinnet: Social interaction network extractor from text. In Sixth International Joint Conference on Natural Language Processing,

Как формализуется взаимодействие?

  • Разговор (коммуникация) персонажей
  • Любое явное взаимодействие героев
  • Социальные связи и отношения (дружба, родство, вражда)

voinaimir.com/info/graph/

Попробуйте сами!

Принципы того, как мы рисуем граф:

  • Если персонажи связаны теснее они ближе, а ребро между ними толще
  • Размер персонажа зависит от общего количества его взаимодействий с другими

Зачем?

  • "Сжать" время произведения, выложить его на плоскость целиком, окинуть взглядом
  • Увидеть то, что не так очевидно при обычном чтении (Моретти про Горацио; Гаврила Пушкин в Годунове)
  • Потенциал для количественных исследований: эволюция жанра/рода, типология произведений (по типу сети) 

Но мы-то нарисовали наши сети вручную, прочитав тексты... 

 

...а для количественных исследований нужно научить компьютер строить сети!

 

Умеет ли компьютер читать тексты?

Фантастика:

Реальность:

Компьютер умеет только то, что можно формализовать

Алгоритм извлечения сети

  1. Извлечение упоминаний персонажей (с учетом анафорических упоминаний, кореферентности)
  2. Формализация взаимодействия между персонажами

Формализация взаимодействия

(для компьютера):

  • Совместная встречаемость (cooccurrence network)
    • Просто и в целом работает, но много мусора:

Александр I, умиротворитель Европы, человек, с молодых лет стремившийся только к благу своих народов, первый зачинщик либеральных нововведений в своем отечестве, теперь, когда, кажется, он владеет наибольшей властью и потому возможностью сделать благо своих народов, в то время как Наполеон в изгнании делает детские и лживые планы о том, как бы он осчастливил человечество, если бы имел власт

Формализация взаимодействия

(для компьютера):

  • Диалоги (conversational network)
    • Это хорошо, но сложно формализовать
    • Не все взаимодействия — речевые

Формализация взаимодействия

(для компьютера):

  • (NEW) Заполнение ролей одного предиката
    • Проще conversational, чище cooccurrence, ближе к сетям, построенным человеком

Заполнение ролей, примеры извлеченных связей (пар):

  • - Что же ты не пьян нынче? - сказал Несвицкий Денисову, когда он подъехал к нему.

  • он [Николай] вызвал Наташу и спросил, что такое

  • Пьер, все более и более приходивший в волнение во время этого разговора, встал и подошел к княгине.

  • Голубчик, Денисов! - взвизгнула Наташа, не помнившая себя от восторга, подскочила к нему, обняла и поцеловала его

Заполнение ролей, примеры извлеченных связей (пар):

  • Графинюшка мудрила с Верой,- сказал граф.- Ну, да что ж! Все-таки славная вышла,- прибавил он, одобрительно подмигивая Вере.
  • - Ну, пей же всю,- сказал Анатоль, подавая последний стакан Пьеру,- а то не пущу!
  • Все оживление Николая исчезло. Он выждал первый перерыв разговора и с расстроенным лицом вышел из комнаты отыскивать Соню.

Заполнение ролей, примеры извлеченных связей (пар):

  • И несмотря на то, что Анатоль проживал десятки тысяч, Долохов жил с ним и успел себя поставить так, что Анатоль и все знавшие их уважали Долохова больше, чем Анатоля.
  •  - Я живу у графини Ростовой,- сказал Борис, опять прибавив,- ваше сиятельство.
  • Обедало человек двадцать, в том числе Долохов и Денисов.

  • Это были Наташа с Соней и Петей, которые пришли наведаться, не встал ли.

Заполнение ролей, примеры извлеченных связей (пар):

  • Денисов все молчал и не шевелился, изредка взглядывая своими блестящими черными глазами на Ростова.
  • Борис замолчал и, не снимая шинели, вопросительно смотрел на мать
  • Он испугался своей жалости к этому человеку и хотел уйти, но другого костра не было, и Пьер, стараясь не глядеть на Платона, подсел к костру.
  • 'Хорошо бы было поехать к Курагину',- подумал он. Но тотчас же он вспомнил данное князю Андрею честное слово не бывать у Курагина.

Так что за взаимодействия мы извлекаем?

Разговор, обращение, диалог:

  • Il faut que vous sachiez que c'est une femme,- сказал Андрей Пьеру
  • Это что-то было тончайшее духовное извлечение из вчерашнего его разговора с Каратаевым.
  • - Ah! ne me parlez pas de ce départ, ne m'en parlez pas. Je ne veux pas en entendre parler,- заговорила княгиня таким капризно-игривым тоном, каким она говорила с Ипполитом в гостиной <...>
  • Пьер опять вопросительно посмотрел на Анну Михайловну, спрашивая теперь, что ему делать.

Пространственный и физический контакт

  • Только подъезжая к Багратиону, Ростов опять пустил свою лошадь в галоп и, держа руку у козырька, подъехал к нему.
  • Пьер, все более и более приходивший в волнение во время этого разговора, встал и подошел к княгине. Он, казалось, не мог переносить вида слез и сам готов был заплакать.
  • Ростов, тяжело чувствовавший отсутствие своего друга, не имея со времени его отъезда никаких известий о нем и беспокоясь о ходе его дела и раны, воспользовался перемирием и отпросился в госпиталь проведать Денисова.

Физический контакт

  • Анна Михайловна мгновенно поняла, в чем дело, и уж нагнулась, чтобы в должную минуту ловко обнять графиню.
  • - Вы, графинюшка, мотовка известная,- проговорил граф и, поцеловав у жены руку, ушел опять в кабинет.
  •  

Восприятие, мысль о

  • Борис замолчал и, не снимая шинели, вопросительно смотрел на мать
  • Всадник, которого фигура, показавшись знакома Ростову, почему-то невольно приковала к себе его внимание, сделал отрицательный жест головой и рукой, и по этому жесту Ростов мгновенно узнал своего оплакиваемого обожаемого государя.

Совместное действие, восприятие и т.п.

  • Обедало человек двадцать, в том числе Долохов и Денисов.
  • ни стояли биваками. Денисов с Ростовым жили в вырытой для них солдатами землянке, покрытой сучьями и дерном.
  • Часто Наташа и Николай видели тайные, беспокойные переговоры родителей и слышали толки о продаже богатого родового ростовского дома и подмосковной

На примере конкретных глав

Том 2, часть 4, глава 8

Том 2, часть 4, глава 8

 Граф Илья Андреич вышел из предводителей, потому что эта должность была сопряжена с слишком большими расходами. Но дела его все не поправлялись. Часто Наташа и Николай видели тайные, беспокойные переговоры родителей и слышали толки о продаже богатого родового ростовского дома и подмосковной

<...>

Она высказала ему, что вся надежда поправления дела основана теперь на его женитьбе на Карагиной.

<...>

Я не могу приказывать своему чувству, - говорил он сам себе. - Ежели я люблю Соню, то чувство мое сильнее и выше всего для меня'.

<...>

В доме Ростовых было невесело.

Том 2, часть 4, глава 11

Том 2, часть 4, глава 11

Играли ли в колечко, в веревочку или рублик, разговаривали ли, как теперь, Николай не отходил от Сони и совсем новыми глазами смотрел на нее

<...>

Соня шла, закутавшись в шубку. Она была уже в двух шагах, когда увидала его; она увидала его тоже не таким, каким она знала и какого всегда немножко боялась. Он был в женском платье с спутанными волосами и с счастливой и новой для Сони улыбкой. Соня быстро подбежала к нему.

Том 2, часть 5, глава 10

Том 2, часть 5, глава 10

- Позвольте мне вам представить брата,- беспокойно перебегая глазами с Наташи на Анатоля, сказала Элен. Наташа через голое плечо оборотила к красавцу свою хорошенькую головку и улыбнулась.

<...>

 Наташа оглядывалась на Элен и на отца, как будто спрашивая их, что такое это значило; но Элен была занята разговором с каким-то генералом и не ответила на её взгляд, а взгляд отца ничего не сказал ей, как только то, что он всегда говорил: 'Весело, ну я и рад'.

<...>

Анатоль улыбнулся, как бы ободряя ее.

Проблемы такого подхода

  • Ирреальные наклонения
    • Он мог бы... не только мог бы, но он должен был подъехать к государю.
  • Bullet Two
  • Bullet Three

Посмотрим, что за сеть получилась по всему роману

"Война и мир" целиком

Too much:)

Попробуем по частям томов

I том 

III том

Эпилог

Как сделаны визуализации?

  • Укладка: силовой алгоритм (группирует сильно связанные узлы)
  • Размер узла пропорционален степени (числу связей с другими узлами)
  • Цвет узла: modularity clustering 1
  • Толщина ребра: вес связи (=сколько раз в этой части герои оказывались под одним предикатом)

1Blondel V.D., Guillaume J., Lambiotte R., Lefebvre E., (2008), Fast unfolding of communities in large networks, in Journal of Statistical Mechanics: Theory and Experiment (10), p. 1000 )

1 том 1 часть

1 том 2 часть

 Они же (видно разную плотность)

Том 1, часть 2 ("война")

Том 1, часть 1 ("мир")

Выше плотность

Больше связей у узла (в среднем)

1 том 3 часть

2 том 1 часть

2 том 2 часть

2 том 3 часть

2 том 4 часть

Цифры за сближением Николая с Соней

Text

2 том 5 часть

3 том 1 часть

3 том 2 часть

3 том 3 часть

4 том 1 часть

4 том 2 часть

4 том 3 часть

4 том 4 часть

Эпилог 1

Эпилог 2

Итак, мы

  • Придумали, как извлекать сети персонажей
  • Увидели, что эти сети как-то соотносятся с нашим пониманием сюжета частей

"Мир" и "война": гипотеза

  • "мирные" и "военные" фрагменты романа отличаются интенсивностью взаимодействия

=> 

  • ​сети для "мирных" и "военных" частей устойчиво различны по ряду параметров

Предпосылки гипотезы

  • "Индивидуалистичность" войны у Толстого (герой на поле боя часто один, описывается чувство "которое есть во мне, в нем, <...> в каждом солдате")
  • Исследования по сравнению сетей комедии и трагедии (у трагедии устойчиво ниже плотность сети)

Если утрировать, то...

  • ...я надеялся получить что-то такое:

 И получил такое:

Том 1, часть 2 ("война")

Том 1, часть 1 ("мир")

 И еще такое:

Том 4, часть 3 ("война")

Том 2, часть 1 ("мир")

Какие параметры (метрики) этих сетей нас интересуют?

Параметры

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Параметры сети

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Параметры сети

  • Средняя степень узла
  • Плотность
  • Диаметр
  • N компонент связности

Итак, мы

  • Придумали, как извлекать сети персонажей
  • Увидели, что эти сети как-то соотносятся с нашим пониманием сюжета частей
  • Выбрали формальные параметры (метрики сетей), связь которых с "военностью"/"мирностью" мы хотим проверить

Можно проверять гипотезу!

"Военные" и "мирные" части

распределены руками, 1 Мир, 0 — Война

Проверяем гипотезу

Проверяем гипотезу

Проверяем гипотезу

Проверяем гипотезу

Параметр Корреляция
Плотность 0.65
Диаметр -0.533
Средняя степень 0.73
Средняя взвешенная степень 0.714
N компонент связности -0.491

Корреляция параметров сети с показателем "война/мир"

Визуально

Но можно ли верить этим сетям?

Evaluation

  • Вручную создаем сети для 30 глав (эталоны)
  • Сравниваем корреляцию параметров тестируемых сетей с эталонами
    • Корреляция плотности сети эталона с сетью-cooccurrence
    • Корреляция плотности сети с syntax-based сетью (заполнение ролей одного предиката)

Evaluation

Parameter

 
Correlation with co-occurrence network Correlation with ‘syntax-based’ network
Плотность  -0.126 0,84
Диаметр -0.456 0,219
Средняя степень 0,748 0,923

Итого мы:

  • Придумали, как извлекать сети персонажей
  • Выбрали формальные параметры (метрики сетей)
  • Нашли хорошую корреляцию этих параметров с "мирностью"/"военностью" частей романа
  • Оценили (качественно и количественно!) достоверность этих сетей

И еще 

  • Увидели, что сети дают возможность формального анализа произведения в полуавтоматическом (а в перспективе — в полностью автоматическом режиме)

Что хочется сделать

В «Войне и мире» очень много значат семейные объединения, принадлежность героя к «породе». Собственно, Болконские или Ростовы — это больше чем семьи, это целые жизненные уклады <...>.

С. Г. Бочаров. Роман Л. Толстого "Война и мир"

 

 

Группы персонажей 

Точка зрения читателя и центральность героя

Толстой в «Войне и мире», как правило, представляет события и картины в восприятии кого-либо из персонажей, пользуясь его «субъективной призмой».

С. Г. Бочаров. Роман Л. Толстого "Война и мир"

 

 

Indeed, the pace was so slow, and the plot so elusive, that many reviewers were unable to distinguish who the main characters were going to be! <...>

For example we now take for granted that  the principal characters are Pierre, Andrei and Natasha. Thus we may be surprised that reviewers of the first installmentseither couold not identify who the main characters were or else identified them incorrectly

Gary Saul Morson. (1987) Hidden in Plain View: Narrative and Creative Potentials in 'War and Peace'

 

 

Например, 1 том

I

II

III

На этом сюжет про Войну и мир закончен.
Спасибо за внимание!

Пример

У ребер могут быть веса

5

4

1

2

1

1

2

3

3

Literary Network Analysis 22 may 2017

By danilsko

Literary Network Analysis 22 may 2017

  • 1,145