граф Толстой
или сетевой анализ "Войны и мира"
План презентации
- Сети в литературоведении
-
Анализ "Войны и мира"
методами теории сетей (графов)- динамика частей и томов
- персонажи и группы
- Прежние сюжеты (контекст сетей во всем исследовании)
Слайды
- Презентация: https://goo.gl/dLf7SV
- вперед — пробел, назад — shift+пробел
- Презентация live: https://goo.gl/mBGzVm
- листается параллельно со мной
Анализ "Войны и мира" методами теории сетей
Граф (сеть)
Сети в литературоведении
Сети в литературоведении
Автоматическое извлечение
- Agarwal, A., Kotalwar, A. and Rambow, O. (2013a). Automatic Extraction of Social Networks from Literary Text: A Case Study on Alice in Wonderland, Proceedings of the 6 th International Joint Conference on Natural Language Processing (IJCNLP 2013), Nagoya, Japan.
- He, H., Barbosa, D. and Kondrak, G. (2013). Identification of Speakers in Novels, Proceedings of ACL 2013, Sofia, Bulgaria.
- Celikyilmaz, A. et al. (2010). The Actor-Topic Model for Extracting Social Networks in Literary Narrative, NIPS Workshop: Machine Learning for Social Computing.
- Elson, D. K., Dames, N. and McKeown, K. (2010b). Extracting Social Networks from Literary Fiction, Proceedings of ACL 2010, Uppsala, Sweden.
- Lee J. and Yeung C. Y. (2012). Extracting Networks of People and Places from Literary
Texts. ACL2012. - Бодрова и Бочаров, Диалог 2014
Анализ "Войны и мира" методами теории сетей
Анализ "Войны и мира" методами теории сетей
- Количественные параметры сети персонажей как отражение динамики романа
- Количественные параметры отдельных узлов-персонажей как признак их значимости
- Автоматическое выделение значимых подгрупп персонажей
Как мы получаем сети
- Совместная встречаемость (cooccurrence network)
- Диалог (conversational network)
- (NEW) Заполнение ролей одного предиката
Предобработка
- Извлечение персонажей
- Разрешение кореферентности
- Местоименная: Compreno
- Именная: с опорой на списки имен (aliases)
- Извлечение диалогов
- Semantiс role labeling (или просто синт. анализ)
Общие параметры сети
- Плотность
- Диаметр
- Средние показатели узлов
- средняя степень
- средняя взвешенная степень
- средние центральности
Свойства сети
- Плотность
- Диаметр
- Средние показатели узлов
- средняя степень
- средняя взвешенная степень
- средние центральности
Общие параметры узла
- Степень
- Взвешенная степень
- Центральности
- по посредничеству (betweenness)
- по близости (closeness)
- эксцентричность
- ...
Свойства узла
- степень
- взвешенная степень
- центральности
- по посредничеству
- по близости
- эксцентричность
Свойства узла
- степень
- взвешенная степень
- центральности
- по посредничеству
- по близости
- эксцентричность
Свойства узла
- степень
- взвешенная степень
- центральности
- по посредничеству
- по близости
- эксцентричность
Сети по частям
(на примере cooccurrence network)
Том 1 часть 1
Том 1 часть 2
Видны различия
Можем ли мы их померить?
Гипотеза:
"Военные" части — менее плотные
Проверяем гипотезу
Том | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 4 | 4 | 4 | 4 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Часть | 1 | 2 | 3 | 1 | 2 | 3 | 4 | 1 | 2 | 3 | 1 | 2 | 3 | 4 |
Диаметр | 3 | 4 | 4 | 3 | 4 | 3 | 3 | 4 | 4 | 7 | 6 | 4 | 3 | 4 |
Плотность сети | 0,357 | 0,279 | 0,215 | 0,351 | 0,242 | 0,366 | 0,411 | 0,21 | 0,148 | 0,163 | 0,205 | 0,163 | 0,327 | 0,243 |
Средняя степень узла | 10 | 5,3 | 6,452 | 7,364 | 4,6 | 6,222 | 9,04 | 5,04 | 5,4 | 4,07 | 4,095 | 3,1 | 3,273 | 3,882 |
Средняя взвешенная степень | 96,2 | 44,2 | 55,3 | 64,2 | 53,6 | 61 | 113,6 | 34,64 | 35,1 | 32,2 | 36,762 | 10,9 | 51,5 | 38,9 |
Война/мир | мир | война | смесь | мир | мир | мир | мир | война | война | война | война | война | война | война |
Категории | свет, ростовы, болконские | война | свет, ростовы, война, андрей | ростовы | пьер, ростовы | андрей, свет | ростовы | война, андрей, ростовы | война | война, пьер | свет, война, философия | война, философия | война | война, ростовы |
Проверяем гипотезу
Проверяем гипотезу
Проверяем гипотезу
Проверяем гипотезу
Ср. драматургия:
Добавить topic modeling?
Как исследовать персонажей?
Взвешенная степень
Центральность по посредничеству
Гипотеза?
Какие гипотезы возможны?
- Можно выделить значимые группы (Ростовы, Болконские, Москва — Петербург, командование армии, павлоградцы Николая... но это банально)
- Разные метрики высвечивают разные аспекты "важности" персонажа (макс.степень vs центральность по смежности)
- для исследования системы персонажей полезнее диалоговая сеть / сеть заполнителей глагольных актантов
Evaluation?
Evaluation
- Ручная экспертная сеть (для части данных)
- сравнение не совпадения сети, а близости метрик
- Тестирование литературных гипотез
- Использование справочников, дайджестов
Кластеризация
Кластеризация
Старое
- Семантические роли
- Skorinkin D., Bonch-Osmolovskaya A. (2016) Text mining War and Peace: Automatic extraction of character traits from literary pieces // Digital Scholarship in the Humanities.
- Стилеметрия речи персонажей
Tolstoy.Graphs_February
By danilsko
Tolstoy.Graphs_February
- 1,277