Стилометрия 2

Кто посмотрел первое вводное видео?

Поставьте плюсик в чат

Кто посмотрел второе видео?

Поставьте плюсик в чат

Что будет сегодня

  • Краткое напоминание 
  • Стилометрия и исследования переводов
  • Стилометрия и изменения стиля внутри творчества одного автора:
    • стилохронология ("ранний/поздний стиль")
    • гетеронимы (напр. Пессоа)
    • жанровые различия
    • редакторские влияния
  • Пара слов о стилометрии за пределами филологии
  • Ваш проект 1: критерии и удачные примеры прошлых лет

Что было в прошлый раз

Стилометрия

  • через статистику — уловить авторский "стиль" (идиостиль, стилом, authorial fingerprint, trace... в общем, отпечаток авторского пальца в тексте)
  • cовременная стилометрия работает. Но только на больших (от 5-10 тыс. слов) и жанрово однородных текстах
  • работает она на частотностях слов/лемм или символьных цепочек (character ngrams)

Джоан Роулинг

Кейс 1: Элена Ферранте

История вопроса

  1. Книги Элены Ферранте выходят с 1992 года 
  2. В 2000-е Ферранте стала очень популярной — сначала в США, потом уже в Италии
  3. В 2005 журналист Луиджи Галелла сравнивал книгу Ферранте с романом писателя Доменико Старноне и нашел текстовые сходства
  4. В 2006 тот же журналист опубликовал количественное исследование книг Ферранте, Старноне и др. итальянских авторов, сделанное физиком Витторио Лоретто; Доменико Старноне снова оказался ближе всех
  5. В 2016 журналист Клаудио Гатти исследовал финансовые потоки издательства E/О — и указал на переводчицу Аниту Райа (Anita Raja)

Визуализация стилометристов

Что это за визуализация?

Eder, M. Visualization in stylometry: Cluster analysis using networks. Digital Scholarship in the Humanities 32, 50–64 (2017).

Демо! 🎥

Figure 4 shows a network visualization of this set, and results are quite clear again.

Here, too, Starnone seems to be married to Ferrante rather than to Raja; 

Partners in Life, Partners in Crime? (J. Rybicki) — еще раз стилометрия в stylo:
A series of stylometric tests for authorship, based on Burrows’s Delta procedure, which compares usage of most frequent words, was run on a corpus of novels by contemporary Italian writers, supplemented with translations by Anita Raja, recently the main suspect for being Elena Ferrante. Rather than to Raja, the tests point overwhelmingly to her husband, the writer Domenico Starnone.

Blended Authorship Attribution: Unmasking Elena Ferrante Combining Different Author Profling Methods (G. Mikros):
all profling results were highly accurate (over 90%) indicating that the person behind Ferrante is a male, aged over 60, from the region Campania and the town Saviano.  The combination of these characteristics indicate a single candidate (among the authors of our corpus), Domenico Starnone.

Кейс 2:

кто написал "Убить пересмешника"

Вторая (и последняя) книга Харпер Ли — 2015 г.

Спор о публикации

  • С 1960 Харпер Ли ничего не публиковала 55 лет 
  • Рукопись "нашла" в сейфе юрист Харпер Ли 
  • Харпер Ли в 2015-м было 88 лет, она не видела, была прикована к инвалидной коляске и жила в доме престарелых  
  • Власти Алабамы проводили расследование дееспособности Харпер Ли
  • О самой рукописи были противоречивые утвеждения
    • черновик "УП"?
    • отдельное незаконченное произведение?

А что сам текст?

  • Многим показался слабым, несопоставимым с мощью "Убить пересмешника"
  • Сюжетно это сиквел (хотя утверждается, что написано раньше чем "УП") — героиня уже взрослая
  • Огромное разочарование в характере Аттикуса Финча ("оказался расистом")

Один ли автор?

Харпер Ли и Трумен Капоте

Почему Капоте?

  • Друг детства Харпер Ли (выросли в одном городе, которой и стал прототипом Мэйкома из "УП")
  • Капоте — прототип Дилла из "УП"
  • Когда Харпер Ли публиковала "УП", Капоте ничего крупного не публиковал
  • После 1960 не публиковалась уже Харпер Ли
  • Зато Капоте написал свою знаменитую true-crime книгу "In Cold Blood" — и известно, что Харпер Ли ездила с ним собирать материал
  • Гипотеза: "Капоте — со-автор или даже основной автор "УП". Харпер Ли отблагодарила его помощью в работе с In Cold Blood"

Эту гипотезу и отправились проверять стилометристы

Харпер Ли похожа на себя!

Харпер Ли

И кстати, мы можем это воспроизвести в stylo:

> data(lee)

> stylo (frequencies=lee)

Еще одна подозреваемая

Тереза "Тэй" Хохоф, редактор "Убить пересмешника"

фото отсюда

"Какие ваши доказательства улики?"

  • После того как издательство J.P. Lippincott приняло у Ли рукопись "Убить пересмешника", Хохофф вместе с Ли несколько лет работали над текстом
  • Хохофф говорила, что в начале текст представлял собой "скорее сборник рассказов, чем единый роман" 
  • Скорее всего, без Хохофф романа "Убить пересмешника" бы просто не было 
  • Гипотеза: "Убить пересмешника" — творение Хохофф, а вот "Пойди поставь сторожа" — это настоящая Ли
    (снова хэштег #разочарование)

Однако единственная книга Хохофф не похожа ни на один из двух текстов Харпер Ли:

Что читать об этом

  1. Go Set A Watchman while we Kill the Mockingbird In Cold Blood — публикация 2015 года, где есть Ли и Капоте
  2. Go Set A Watchman while we Kill the Mockingbird in Cold Blood, with Cats and Other People — продолжение 2016 года, где появляется еще и Хохофф

But the study of literature and authorship is not only who wrote what, and who didn’t

Maciej Eder, Jan Rybicki (2016). Go Set A Watchman while we Kill the Mockingbird in Cold Blood, with Cats and Other People

 

Не только авторство

  1. Внутриавторская вариативность
    1. Датировка и эволюция стиля автора (стилохронология)
    2. Жанровая кластеризация
    3. Гетеронимы
      ...
  2. Коллаборация над текстом
    1. соавторство
    2. Перевод и влияние переводчика
    3. Влияние редактора

Внутриавторская стилометрия

Диккенс: датировка

Maciej Eder, Jan Rybicki

Шекспир: датировка + жанры

Агата Кристи: датировка и...

...гетероним

Мэри Вестмакотт  Роберт Гэлбрейт

Исследование гетеронимов Пессоа  (Орехов, Фишер, work in progress)

Alberto Caeiro, Álvaro de Campos, Ricardo Reis. Pessoa's Heteronyms by Almada Negreiros, 1958.

Толстой: датировка + циклы?

Заметим, что хронологический сигнал проявляется чаще прочих факторов

Стилохронология at scale:

1000 романов разных авторов

И тут конечно можно вспомнить истоки стилометрии — как Лютославский и ко занимались хронологией диалогов Платона

А еще здесь можно вернуться к Ферранте

  • Я уже говорил, что исследование Мачея Эдера было не про авторство, а про "развитие собственного стиля у виртуального автора" 
  • Rather than simply unmasking the name, the paper will test whether – and if yes, then to which extent – the unmasked author’s own novels differ stylistically from the works published as “Ferrante”.  

метод: rolling.classify () 

  • динамический анализ (хорошо для исследования коллаборации авторов)
  • считается Delta-расстояние в текстовом окне
  • Подробнее см. rolling stylomety 

а вот мой тест этого метода

Что увидел Мачей Эдер:

 Arguably, a clear pattern appears: while the early novels show little similarity with the assumed virtual “Ferrante”, the late works are assigned to this class with more and more confidence of the classifier. Almost all of the segments of L’amore molesto from 1992 (Fig. 4a) are classified as “Starnone”, with an exception of a relatively short passage at the end of the novel.  The voice of the virtual “Ferrante” is more noticeable in I Giorni dell’abbandono from 2002 (Fig. 4b), this time at the beginning of the novel. In La  glia oscura (2006) the share of segments by “Ferrante” is roughly equal to those of “Starnone”. In the novel L’amica geniale. Infanzia, adolescenza (2011) the style of “Ferrante” becomes predominant, which is even more visible in Storia del nuovo cognome published 2012  (Fig. 4c). This novel is a triumph of the virtual author

 

Вывод:

  • Apparently, Domenico Starnone demonstrates  <..> the ability to differentiate his own stylistic profile and the voice of his alter ego.
  • Ferrante has been gradually emerging, to become predominant in the late novels.

Коллаборация над текстом

1. Оригиналы и переводы

Оригиналы на французском:

Переводы на английский

Переводы на польский

Тоже на польский — но сигнал переводчика виден

Тоже на польский — но сигнал переводчика виден

"Ночь и день" Вирджинии Вулф, перевод на польский

Anna Kołyszko -> Magda Heydel

J. Rybicki, M.Heydel. The stylistics and stylometry of collaborative translation: Woolf’s Night and Day in Polish // Literary and Linguistic Computing 28 (4), 708-717

снова rolling.classify()

rolling stylometry

& the Shakespeare question

Шекспир

...и Марлоу

Генрих VI: последовательный анализ

Влияние редактора

Choiński, M., Rybicki, J. (2016). Jonathan Edwards and Thomas Foxcroft: In Pursuit of Stylometric Traces of the Editor. In Digital Humanities 2016: Conference Abstracts. Jagiellonian University & Pedagogical University, Kraków, pp. 147-149.

Влияние редактора

Consecutive segments of Edwards's Mind (1723); throughout the work, Edward's signal (red) dominates over the (absent) signal of Foxcroft.

Влияние редактора + стилохронография (опять)

Consecutive segments of Edwards's Humble Inquiry (1749); in many other fragments, dominated by Edwards (red), Foxcroft's impact is still visible. The lower band shows the strongest signal; the upper, the second strongest.

За пределами литературы

За пределами литературы

  • Unabomber Theodore Kaczynski perpetrated a number of bomb attacks on universities and airlines between 1978 and 1995

  • Promised to stop if his 35,000-word anti-industrialist “manifesto was published in major newspapers

  • Distinctive writing style and turns of phrase enabled him to be identified

За пределами литературы

  • Авторство книги Primary Colors

  • Дело Дерека Бентли 

  • Adversarial stylometry

Стилометрия и контр-стилометрия

  • деанонимизация
  • разработка стилевых анонимизаторов
  • определение демографических параметров
  • определение родного языка по стилю языка неродного


И даже по стилю кода! :-0

Удачные примеры исследований прошлых лет 

Примеры исследований прошлых лет 

Примеры исследований прошлых лет 

Чисто корпусный пример:

Критерии оценки

  • Насколько удачно придумана и сформулирована общая идея исследования — 2 балла
  • Насколько хорошо описаны материалы и процедура исследования (какие тексты/корпуса использовались, что вы с ними делали) — 1 балл
  • Насколько полно представлены результаты исследования (в виде дендрограмм, графиков, сетей и проч.) — 2 балла
  • Насколько вам удалось проинтерпретировать результат и сделать содержательные выводы (выводы не обязаны быть категоричными, и даже хорошо, если они будут осторожными предположениями, это ведь маленькое пробное исследование; но хочется, чтобы какие-то выводы были) — 2 балла
  • Сложность реализации исследования — 1 балл (потому что построить графики в условном Ngram Viewer все-таки легче, чем возиться со Stylo или своим корпусом в Voyant или ином корпусном менеджере; разница в трудозатратах будет учтена)
  • — Общая информативность и внятность презентации вашего исследования — 2 балла

classify ()

  • тестирование определения авторства на основе Delta (и других мер стилистической близости)
  • для классификации используются стандартные алгоритмы анализа данных: машины опорных векторов, метод К ближайших соседей и т.п.
  • нужно два набора документов
    • обучающая выборка (primary_set)
    • тестовая (secondary_set) 

Классификация versus Кластеризация

Результаты выглядят так:

oppose ()

  • контрастивный анализ: выделяет слова, которые статистически отличают один набор текстов от другого
  • хорошо подходит для различных сравнительных исследований (e.g. мужчины vs женщины) 

Title Text

Есть еще rolling.delta()

  • Она как бы отрисовывает те обобщенные стилометрические расстояния, на которых работает 
  • Но ей меньше пользуются

Источники по стилометрии:

P.S. Кстати, а у нас-то что, не было после Морозова стилометристов?

Meanwhile in (Soviet) Russia

  • Виноградов В. В. (1961) Проблема авторства и теория стилей

  • Мартыненко Г.Я. (1988) Основы стилеметрии
  • Мухин М.Ю. (2011) Лексическая статистика и идиостиль автора: корпусное идеографическое исследование на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова
  • М. Ю. Михеев, Л. И. Эрлих (2017 доклад). Идиостиль и определение авторства текста по частотам служебных слов (люди переизобрели Delta, не зная о ней... 🚲 🚲)

Примеры quick and dirty исследований от наших бакалавров

Стилометрия ч 2 Минор 2021

By danilsko

Стилометрия ч 2 Минор 2021

  • 713