NB: Эту презентацию лучше не листать "стрелочками"

Вперед — ПРОБЕЛ
Назад — ШИФТ+ПРОБЕЛ

Стилометрия 2

история, реальные современные кейсы, продвинутая визуализация

Сегодня

  • Краткая напоминалка: суть стилометрии
  • Историческая справка
  • Реальные применения Stylo/Delta
  • Визуализация (тизер сетевого анализа!)
  • Практика на семинаре

Что было в прошлый раз

Стилометрия

  • через статистику — уловить авторский "стиль" (идиостиль, стилом, authorial fingerprint... name it)
  • стилометрия работает — доказано экспериментально 
  • Но только на больших (от 5 тыс. слов) и жанрово однородных текстах
  • работает она на частотностях  слов/лемм или символьных цепочек (character ngrams)

Джоан Роулинг

Stylo

  • Пакет в языке R для стилеметрии
  • в него встроена Delta   
  • ...и еще много других метрик близости
  • есть приятный графический интерфейс!

кстати, данные по Роулинг встроены в Stylo

Воспроизвести этот эксперимент можно в 3 команды (след.слайд)

функция stylo () 

  • расчет и визуализация стилистической близости
    • Различные способы кластеризации (группировки) текстов по близости
    • Отображение многомерного "стилистического пространства" текстов на плоскости (Principal Component Analysis MDS, tSNE)  
  • списки самых частотных слов, таблицы частотности и т.д.
  • имеет графич.интерфейс

Stylo: быстрый старт

  • О программе: сайт разработчиков Stylo
  • Прекрасный HOWTO от разработчиков
  • Моя инструкция по установке
  • Статья (основная по технич.части):
    • Stylometry with R: A Package for Computational Text Analysis. M. Eder, M. Kestemont, J. Rybicki.

Но пока давайте вернемся к вопросу

«Зачем?»

Споры об авторстве

Presumably, each national literature has its own famous unsolved attribution case, such as the Shakespearean canon, a collection of Polish erotic poems of the 16th century ascribed to Mikołaj Sęp Szarzyński, the Russian epic poem The Tale of Igor’s Campaign, and many other. 

 

Eder M. (2011) Style-markers in authorship attribution: A cross-language study of the authorial fingerprint.

Слово о полку Игореве

Уже двести лет не прекращается дискуссия о том, что представляет собой «Слово о полку Игореве», — подлинное древнерусское произведение или искусную подделку под древность, созданную в XVIII веке. <...> Гибель единственного списка этого произведения лишает исследователей возможности произвести анализ почерка, бумаги, чернил и прочих материальных характеристик первоисточника. Наиболее прочным основанием для решения проблемы подлинности или поддельности «Слова о полку Игореве» оказывается в таких условиях язык этого памятника.

 

A.А. Зализняк. "Слово о полку Игореве": взгляд лингвиста.

Слово о полку Игореве

Слово о полку Игореве

 

Речь ведь идет не о простых вещах, вроде того, чтобы помнить, как будет «хлеб» или «ходить» или как образуется прошедшее время от такого-то глагола, а о деталях несравненно более тонких и, главное, чрезвычайно многочисленных

A.А. Зализняк. "Слово о полку Игореве": взгляд лингвиста.

Слово о полку Игореве

Очень сильно различаются по трудности имитация единичных фактов и имитация системных фактов. Например, изображая деревенскую речь, имитатор может вставлять время от времени несколько запомненных им словечек вроде давеча или намедни — это довольно просто. Гораздо сложнее правильно воспроизвести некоторое системное явление, скажем, яканье. Имитатор произнесет (или напишет) бяда, дяревня, но он вполне может вставить в свою речь и пясать вместо писать, а это уже неверно: и в действительности не участвует в яканье. 

A.А. Зализняк. "Слово о полку Игореве": взгляд лингвиста.

Стилометрия тоже смотрит на язык памятника — и на мелкие, малозаметные, системные детали

Первые измерения 

  • 1851 — математик А. де Морган предлагает длину слова как признак авторства

  • 1873 — "New Shakspeare Society"  Furnival, Fleay et al

  • 1887 — Томас Менденхолл (T. Mendenhall), The Characteristic Curves of Composition, первая известная работа по количественному определению авторства

Начала стилеметрии

  • 1867 — Campbell L. The Sophisties and Polilicus of Plato.

  • 1880 — W. Dittenberger,

    Sprachliche Kriterien für die Chronologie der Platonischen Dialoge

  • 1890 — W. Lutosławski, Principes de stylométrie

Lutoslawski W. The Origin and Growth of Plato’s Logic // Mind. 1898. Т. 7. № 27. С. 419–423.

Стилеметрия в России

  • 1915 — Морозов Н.А. Лингвистические спектры
    (вдохновлен Лютославским)

Потрясающий Н. А. Морозов

Потрясающий Н. А. Морозов

А еще этот человек написал "Лингвистические спектры"

  • Морозову оппонировал сам Андрей Марков
  • Марков А.А. Об одном применении статистического метода. 1916
  • Видимо, Морозов первый осознал важность служебных слов

Как обычно, прорыв случился в 1960-е

Записки федералиста

  • Серия знаковых статей эпохи Американской революции
  • 12 спорных (Хэмилтон или Мэдисон)
  • Статья Ф.Мостеллера и Д. Уоллеса Inference in an Authorship Problem (1963
  • '...определить авторство записок федералиста и предложить стандартный метод для решения проблем авторства'

Mosteller, Wallace, 1963

  • The function words of the language appear to be a fertile source of discriminators, and luckily the high-frequency words are the strongest.
  • <...>it is important to have a variety of sources of material, to allow “between writings” variability to emerge

Mosteller, Wallace, 1963

In summary, the following points are clear:

  • Madison is the principal author. These data make it possible to say far more than ever before that the odds are enormously high that Madison wrote the 12 disputed papers. <...>
  • <...> While choice of under­lying constants (choice of prior distributions) matters, it doesn’t matter very much, once one is in the neighborhood of a distribution suggested by a fair body of data.

Размер имеет значение!

Дж. Барроуз

Most readers and critics behave as though common prepositions, conjunctions, personal pronouns, and articles — the parts of speech which make up at least a third of fictional works in English — do not really exist. But far from being a largely inert linguistic mass which has a simple but uninteresting function, these words and their frequency of use can tell us a great deal about the characters who speak them.

Preface to Computation into Criticism, 1987

Метод Delta

  • Фактически стандарт в стилометрии с  2002 года
  • Опирается на частотности слов (или символьных цепочек) 
  • Основан на очень простой математике

только Delta работает не с сырыми частотностями слов, а с z-scores, стандартными показателями

Z-преобразование (Standard score)

Z-score

(стандартный показатель)

где

  • x – частотность слова в тексте
  • µ - общая частотность слова по корпусу
  • σ - стандартное отклонение частотности слова по корпусу

(вычисляется для каждого слова в каждом тексте)

Для каждого текста получается 100/300/500/n ... 

таких стандартизированных частотностей слов

И вот между ними дельта уже измеряет расстояние линеечкой

Джоан Роулинг

На русском тоже работает (на семинаре убедитесь сами)

Применение
Delta и Stylo
в спорах об авторстве

Кто написал "Убить пересмешника"?

Харпер Ли

Харпер ли?

Вторая (и последняя) книга Харпер Ли — 2015 г.

Один ли автор?

Харпер Ли и Трумен Капоте

Результаты:

Харпер Ли похожа на себя!

То же — в виде сети

Сетевые визуализации лучше отражают результаты:

<...> a new visualization technique, which combines the idea of nearest neighborhood derived from cluster analysis, the idea of hammering out a clustering consensus from bootstrap consensus tre es, with the idea of mapping textual similarities onto a form of a network. Additionally, network analysis seems to be a good solution for large datasets.

Eder M. Visualization in stylometry: Cluster analysis using networks // Digital Scholarship in the Humanities. 2017. vol. 32. issue 1. pp. 50–64.

  •  
  •   

Элена Ферранте

Title Text

Шекспир

...или Марлоу?

Генрих VI: последовательный анализ

функция rolling.classify ()

  • динамический анализ (хорошо для исследования коллаборации авторов)
  • считается Delta-расстояние в текстовом окне 

ну и Шолохов

ну и Шолохов

См. также:

 Великанова Н. П., Орехов Б. В. Цифровая текстология: атрибуция текста на примере романа М. А. Шолохова «Тихий Дон» // Мир Шолохова. Научно-просветительский общенациональный журнал. — 2019. — № 1. — С. 70—82.

Бонус: не только авторство

But the study of literature and authorship is not only who wrote what, and who didn’t: it can be also about similarities and differences between texts by different authors

Maciej Eder, Jan Rybicki (2016). Go Set A Watchman while we Kill the Mockingbird in Cold Blood, with Cats and Other People

 

Кроме авторства:

  • Жанры
  • Влияние редактора
  • Датировка
  • Эволюция стиля автора: ранний и поздний стиль
  • Пол
  • Перевод и влияние переводчика
  • Forensic linguistics, security and anonymity

Шекспир:

Датировка: Диккенс

Датировка: Толстой

Датировка: 1000 романов

Агата Кристи

Агата Кристи

А кто такая Мэри Вестмакотт?

Оригиналы и переводы

Оригиналы

Maciej Eder, Jan Rybicki

Переводы на английский

Maciej Eder, Jan Rybicki

Переводы на польский

Maciej Eder, Jan Rybicki

"Ночь и день" Вирджинии Вулф, перевод на польский

Anna Kołyszko -> Magda Heydel

Maciej Eder, Jan Rybicki

снова rolling.classify

Влияние редактора

Choiński, M., Rybicki, J. (2016). Jonathan Edwards and Thomas Foxcroft: In Pursuit of Stylometric Traces of the Editor. In Digital Humanities 2016: Conference Abstracts. Jagiellonian University & Pedagogical University, Kraków, pp. 147-149.

Влияние редактора

Consecutive segments of Edwards's Mind (1723); throughout the work, Edward's signal (red) dominates over the (absent) signal of Foxcroft.

Влияние редактора

Consecutive segments of Edwards's Humble Inquiry (1749); in many other fragments, dominated by Edwards (red), Foxcroft's impact is still visible. The lower band shows the strongest signal; the upper, the second strongest.

Есть еще rolling.delta()

  • Она как бы отрисовывает те обобщенные стилометрические расстояния, на которых работает rolling.classify
  • Но ей меньше пользуются

Стилометрия за пределами литературы

За пределами литературы

  • Unabomber Theodore Kaczynski perpetrated a number of bomb attacks on universities and airlines between 1978 and 1995

  • Promised to stop if his 35,000-word anti-industrialist “manifesto was published in major newspapers

  • Distinctive writing style and turns of phrase enabled him to be identified

За пределами литературы

  • Скандал в Консервативной партии 

  • Авторство книги Primary Colors

  • Дело Дерека Бентли 

  • Adversarial stylometry

Стилометрия и контр-стилометрия

  • деанонимизация
  • разработка стилевых анонимизаторов
  • определение демографических параметров
  • определение родного языка по стилю языка неродного

И даже по стилю кода! :-0

Стилометрия в СМИ  

тетрадка для практики

Кто еще не успел — попробуйте сейчас обзавестись stylo, действуя по этой инструкции

Короткая ссылка на инструкцию:
tinyurl.com/yyrmv5uh

Инструкции для вас

Stylo: главные функции

  • stylo () 
  • classify ()
  • rolling.delta (), rolling.classify ()
  • oppose ()

stylo () 

  • расчет и визуализация стилистической близости
    • Различные способы кластеризации (группировки) текстов по близости
    • Отображение многомерного "стилистического пространства" текстов на плоскости (Principal Component Analysis MDS, tSNE)  
  • списки самых частотных слов, таблицы частотности и т.д.

classify ()

  • тестирование определения авторства на основе Delta (и других мер стилистической близости)
  • для классификации используются стандартные алгоритмы анализа данных: машины опорных векторов, метод К ближайших соседей и т.п.
  • нужно два набора документов
    • обучающая выборка (primary_set)
    • тестовая (secondary_set) 

Классификация versus Кластеризация

Результаты выглядят так:

rolling.classify ()

  • динамический анализ (хорошо для исследования коллаборации авторов)
  • считается Delta-расстояние в текстовом окне 

oppose ()

  • контрастивный анализ: выделяет слова, которые статистически отличают один набор текстов от другого
  • хорошо подходит для различных сравнительных исследований (e.g. мужчины vs женщины) 

Title Text

Источники по стилометрии:

P.S. Кстати, а у нас-то что, не было после Морозова стилометристов?

Meanwhile in (Soviet) Russia

  • Виноградов В. В. (1961) Проблема авторства и теория стилей

  • Мартыненко Г.Я. (1988) Основы стилеметрии
  • Мухин М.Ю. (2011) Лексическая статистика и идиостиль автора: корпусное идеографическое исследование на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова
  • М. Ю. Михеев, Л. И. Эрлих (2017 доклад). Идиостиль и определение авторства текста по частотам служебных слов (люди переизобрели Delta, не зная о ней... 🚲 🚲)

tinyurl.com/y6n3cokd

Данные для практики

Стилометрия минор продолжение

By danilsko

Стилометрия минор продолжение

  • 1,715