NB: Эту презентацию лучше не листать "стрелочками"

Вперед — ПРОБЕЛ
Назад — ШИФТ+ПРОБЕЛ

Stylometry

or How do you know it's real Shakespeare? :)

Стилеметрия

Или как понять, что Тихий дон — это все-таки Шолохов

bit.ly/2ptKqD9

эта преза

План на сегодня

  • Что такое стилометрия и откуда она взялась
  • Как работает современная стилометрия
  • Практика в Stylo (понадобится R)
  • Много примеров стилометрических детективов исследований
  • Что можете сделать вы?
    Примеры студенческих исследований

Вчера я рассказывал, что филологи давно занимаются

  • статистикой и анализом данных
  • поиски закономерностей в больших выборках
  • создание формализованных абстрактных моделей

Стилометрия — одно из старейших направлений

И самое романтично-таинственное!

Детективная история 1

Смертельная белизна

Гэлбрэйт и Роулинг

Джоан Роулинг

Так что такое
стил(о|е)метрия?

Стилеметрия

это статистический анализ отклонений между литературными стилями разных авторов или жанров

Oxford Dictionary

 

 лежит гипотеза о том, что у авторского стиля есть как осознаваемая, так и не осознаваемая автором составляющая

 

Encyclopaedia of Statistical Sciences

 

В основе стилеметрии

Стилеметрические исследования во всем их разнообразии имеют две общие черты: тексты должны быть каким-то образом преобразованы в числа, а числа — исследованы статистическими методами

 

M. Eder, M. Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses

Какие элементы текста посчитать проще всего?

По-видимому, в разных стилях книжной и разговорной речи <...> частота употребления разных типов слов различна. Точные изыскания в этой области помогли бы установить структурно-грамматические, а отчасти и семантические различия между стилями <...>
 

В.В. Виноградов (1938) Введение в грамматическое учение о слове

 

Слова (частотности)

N-граммы слов

 

Что еще можно посчитать 

  • N-граммы (цепочки) символов
    • 'ая', 'овый', 'остью'
  • Леммы 
    • (конь/я/ю/ем/ями/ям/ем)
  • Части речи
  • Синтаксические структуры
  • (в стихах) метр

 

Что еще можно посчитать 

  • общий размер словаря автора/текста
  • hapax legomena (см. A. Q. Morton. 'Once. A Test of Authorship Based on Words Which Are Not Repeated in the Sample')
  • длина предложения
  • знаки препинания
  • (в нередактированном тексте) ошибки и особенности пунктуации

 

...и еще

Но зачем?

Зачем "измерять" текст?

  • Споры об авторстве
  • Сравнение жанров
  • Сравнение мужских и женских текстов
  • Сравнение оригиналов и переводов
  • Исследования "стилома" человека (т.н. идиостиль); ранние и поздние тексты
  • Forensic linguistics, security and anonymity

Какие случаи спорного авторства вы помните?

Споры об авторстве

Presumably, each national literature has its own famous unsolved attribution case, such as the Shakespearean canon, a collection of Polish erotic poems of the 16th century ascribed to Mikołaj Sęp Szarzyński, the Russian epic poem The Tale of Igor’s Campaign, and many other. 

 

Eder M. (2011) Style-markers in authorship attribution: A cross-language study of the authorial fingerprint.

Слово о полку Игореве

Уже двести лет не прекращается дискуссия о том, что представляет собой «Слово о полку Игореве», — подлинное древнерусское произведение или искусную подделку под древность, созданную в XVIII веке. <...> Гибель единственного списка этого произведения лишает исследователей возможности произвести анализ почерка, бумаги, чернил и прочих материальных характеристик первоисточника. Наиболее прочным основанием для решения проблемы подлинности или поддельности «Слова о полку Игореве» оказывается в таких условиях язык этого памятника.

 

A.А. Зализняк. "Слово о полку Игореве": взгляд лингвиста.

Стилометрия тоже смотрит на язык памятника — и на мелкие, малозаметные детали

Первые измерения 

  • 1851 — математик А. де Морган предлагает длину слова как признак авторства

  • 1873 — "New Shakspeare Society"  Furnival, Fleay et al

  • 1887 — Томас Менденхолл (T. Mendenhall), The Characteristic Curves of Composition, первая известная работа по количественному определению авторства

Начала стилеметрии

  • 1867 — Campbell L. The Sophisties and Polilicus of Plato.

  • 1880 — W. Dittenberger,

    Sprachliche Kriterien für die Chronologie der Platonischen Dialoge

  • 1890 — W. Lutosławski, Principes de stylométrie

Стилеметрия в России

  • 1915 — Морозов Н.А. Лингвистические спектры
    (вдохновлен Лютославским)

Потрясающий Н. А. Морозов

Потрясающий Н. А. Морозов

А еще этот человек написал "Лингвистические спектры"

  • Морозову оппонировал сам Андрей Марков
  • Марков А.А. Об одном применении статистического метода. 1916
  • Видимо, Морозов первый осознал важность служебных слов

Прогресс стилеметрии

  • 1937 — Bolling, G.M. The Past Tense of 'To Be' in Homer

  • 1938 — Carroll, J.B. Diversity of vocabulary and the harmonic series law of word-frequency distribution

От неудач и уток...

  • Ошибка с Флетчером
  • "Фейки" про Шекспира 

...к успехам

как обычно, прорыв случился в 60-е

Записки федералиста

  • Серия знаковых статей эпохи Американской революции
  • 12 спорных (Хэмилтон или Мэдисон)
  • Статья Ф.Мостеллера и Д. Уоллеса Inference in an Authorship Problem (1963
  • '...определить авторство записок федералиста и предложить стандартный метод для решения проблем авторства'

Mosteller, Wallace, 1963

  • The function words of the language appear to be a fertile source of discriminators, and luckily the high-frequency words are the strongest.
  • <...>it is important to have a variety of sources of material, to allow “between writings” variability to emerge

Mosteller, Wallace, 1963

In summary, the following points are clear:

  • Madison is the principal author. These data make it possible to say far more than ever before that the odds are enormously high that Madison wrote the 12 disputed papers. <...>
  • <...> While choice of under­lying constants (choice of prior distributions) matters, it doesn’t matter very much, once one is in the neighborhood of a distribution suggested by a fair body of data.

Размер имеет значение!

Дж. Барроуз

Most readers and critics behave as though common prepositions, conjunctions, personal pronouns, and articles — the parts of speech which make up at least a third of fictional works in English — do not really exist. But far from being a largely inert linguistic mass which has a simple but uninteresting function, these words and their frequency of use can tell us a great deal about the characters who speak them.

Preface to Computation into Criticism, 1987

Метод Delta

  • Фактически стандарт в стилометрии с  2002 года
  • Опирается на частотности слов (или символьных цепочек) 
  • Основан на очень простой математике

И для каждого текста получается 100/300/500/1000 

таких чисел

Теперь "близость" авторов можно просто измерить линеечкой

Примерно так:

..или иным способом:

Только в 100/300/1000-мерном пространстве

Джоан Роулинг

Но это же бред! 

 

Да. Но это работает

Давайте проверим

Stylo

  • Пакет в языке R для стилеметрии
  • в него встроена Delta   
  • ...и еще много других метрик близости
  • есть приятный графический интерфейс!

Stylo

  • О программе: сайт разработчиков Stylo
  • Документ HOWTO от разработчиков
  • Stylometry with R: A Package for Computational Text Analysis. M. Eder, M. Kestemont, J. Rybicki.

Инструкции для вас

Stylo: главные функции

  • stylo () 
  • classify ()
  • rolling.delta (), rolling.classify ()
  • oppose ()

stylo () 

  • расчет и визуализация стилистической близости
    • Различные способы кластеризации (группировки) текстов по близости
    • Отображение многомерного "стилистического пространства" текстов на плоскости (Principal Component Analysis MDS, tSNE) 
  • списки самых частотных слов, таблицы частотности и т.д.

classify ()

  • тестирование определения авторства на основе Delta (и других мер стилистической близости)
  • для классификации используются стандартные алгоритмы анализа данных: машины опорных векторов, метод К ближайших соседей и т.п.
  • нужно два набора документов
    • обучающая выборка (primary_set)
    • тестовая (secondary_set) 

rolling.delta ()

  • динамический анализ (хорошо для исследования коллаборации авторов)
  • считается Delta-расстояние в текстовом окне 

oppose ()

  • контрастивный анализ: выделяет слова, которые статистически отличают один набор текстов от другого
  • хорошо подходит для различных сравнительных исследований (e.g. мужчины vs женщины) 

Title Text

Попробуйте сейчас обзавестись stylo, действуя по этой инструкции

Короткая ссылка на инструкцию:
tinyurl.com/yyrmv5uh

tinyurl.com/y6n3cokd

Данные для практики

Небольшое уточнение

Delta работает не с сырыми частотностями слов, а с...

Z-score  

где

  • x – частотность слова в тексте
  • µ - общая частотность слова по корпусу
  • σ - стандартное отклонение частотности слова по корпусу

(вычисляется для каждого слова в каждом тексте)

Z-преобразование

Разные способы сравнивать вектора

Больше примеров использования стилеметрии 

Детективная история 2

Кто написал "Убить пересмешника"?

Харпер Ли

Харпер ли?

Вторая (и последняя) книга Харпер Ли — 2015 г.

Один ли автор?

Харпер Ли и Трумен Капоте

Стилометрия спешит на помощь!

Харпер Ли похожа на себя!

То же самое — в виде сети:

Больше детективов

Шекспир

...или Марлоу?

Генрих VI: последовательный анализ

Теперь официально!

Now it's official!

Элена Ферранте

But the study of literature and authorship is not only who wrote what, and who didn’t: it can be also about similarities and differences between texts by different authors

Maciej Eder, Jan Rybicki (2016). Go Set A Watchman while we Kill the Mockingbird in Cold Blood, with Cats and Other People

 

Не только авторство

  • Жанры
  • Влияние редактора
  • Датировка
  • Эволюция стиля автора
  • Пол, возраст автора
  • Перевод и влияние переводчика

Жанры: Шекспир

Датировка: Диккенс

Датировка: Толстой

Датировка: 1000 романов

Агата Кристи

Агата Кристи

А кто такая Мэри Вестмакотт?

Оригиналы и переводы

Оригиналы

Maciej Eder, Jan Rybicki

Переводы на английский

Maciej Eder, Jan Rybicki

Переводы на польский

Maciej Eder, Jan Rybicki

Переводы на польский

Maciej Eder, Jan Rybicki

Набоков

Jan Rybicki

"Ночь и день" Вирджинии Вулф, перевод на польский

Anna Kołyszko -> Magda Heydel

Maciej Eder, Jan Rybicki

Влияние редактора

Влияние редактора

Consecutive segments of Edwards's Mind (1723); throughout the work, Edward's signal (red) dominates over the (absent) signal of Foxcroft.

Влияние редактора

Consecutive segments of Edwards's Humble Inquiry (1749); in many other fragments, dominated by Edwards (red), Foxcroft's impact is still visible. The lower band shows the strongest signal; the upper, the second strongest.

И еще одно влияние:

За пределами литературы

За пределами литературы

  • Unabomber Theodore Kaczynski perpetrated a number of bomb attacks on universities and airlines between 1978 and 1995

  • Promised to stop if his 35,000-word anti-industrialist “manifesto was published in major newspapers

  • Distinctive writing style and turns of phrase enabled him to be identified

За пределами литературы

  • Скандал в Консервативной партии 

  • Авторство книги Primary Colors

  • Дело Дерека Бентли 

  • Adversarial stylometry

Стилометрия и контр-стилометрия

  • деанонимизация
  • разработка стилевых анонимизаторов
  • определение демографических параметров
  • определение родного языка по стилю языка неродного

И даже по стилю кода! :-0

Стилометрия в СМИ  

Что можете сделать вы?

Источники по стилометрии:

P.S. Кстати, а у нас-то что, не было после Морозова стилометристов?

Meanwhile in (Soviet) Russia

  • Виноградов В. В. (1961) Проблема авторства и теория стилей

  • Мартыненко Г.Я. (1988) Основы стилеметрии
  • Мухин М.Ю. (2011) Лексическая статистика и идиостиль автора: корпусное идеографическое исследование на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова
  • М. Ю. Михеев, Л. И. Эрлих (2017 доклад). Идиостиль и определение авторства текста по частотам служебных слов (люди переизобрели Delta, не зная о ней... 🚲 🚲)

Стилеметрия ИТМО

By danilsko

Стилеметрия ИТМО

  • 1,273