Стилометрия 2

  1. интересные кейсы и продвинутая stylo-визуализация
  2. применение за пределами опредления авторства

Что будет дальше

  • Еще пара интересных кейсов определения авторства
    • (и попутно — продвинутая визуализация)
  • Стилометрия и исследования переводов
  • Стилометрия и изменения стиля внутри творчества одного автора:
    • стилохронология ("ранний/поздний стиль")
    • гетеронимы (напр. Пессоа)
    • жанровые различия
    • редакторские влияния
  • Пара слов о стилометрии за пределами филологии


Элена Ферранте

История вопроса

  1. Книги Элены Ферранте выходят с 1992 года 
  2. В 2000-е Ферранте стала очень популярной — сначала в США, потом уже в Италии
  3. В 2005 журналист Луиджи Галелла сравнивал книгу Ферранте с романом писателя Доменико Старноне и нашел текстовые сходства
  4. В 2006 тот же журналист опубликовал количественное исследование книг Ферранте, Старноне и др. итальянских авторов, сделанное физиком Витторио Лоретто; Доменико Старноне снова оказался ближе всех
  5. В 2016 журналист Клаудио Гатти исследовал финансовые потоки издательства E/О — и указал на переводчицу Аниту Райа (Anita Raja)

Так кто же он(а)?

Title Text

Визуализация М. Эдера:

Стоп, что это за новая визуализация?

Eder, M. Visualization in stylometry: Cluster analysis using networks. Digital Scholarship in the Humanities 32, 50–64 (2017).

...есть и более знакомая нам визуализация:

8 исследований

  1. It Takes Many Hands to Draw Elena Ferrante’s Profile (A.Tuzzi, M.A. Cortelazzo.) — стат.метод на основе коллокаций и межтекстовой близости:
    "Domenico Starnone is the writer with the greatest affinity in style and content with the novels signed by Elena Ferrante"
  2. Elena Ferrante: A Virtual Author (M. Eder) — стилометрия в stylo:
    "the already suggested hypothesis of Domenico Starnone’s authorship of the novels in question was difficult to falsify.

На самом деле статья Эдера не (только) про авторство:

 Te present study is not intended to reopen the above authorship question, although the Starnone hypothesis will play an important role here. Instead, the paper attempts at testing the stability of the authorial signal in the works by “Ferrante”, whoever the actual author turns out to be. Rather than simply unmasking the name, the paper will test whether – and if yes, then to which extent – the unmasked author’s own novels differ stylistically from the works published as “Ferrante”.  

Но об этом позже!

  1. Thesaurus-Based Semantic Similarity Judgments: A New Approach to Authorial Similarity? (P. Juola) — метод на основе концептуально-семантической близости:
    Of the thirty-nine distractor authors, only two (Murgia and Starnone) had no signiаcant differences in concept usage when compared with Ferrante. <...> all that has been shown is that Ferrante is someone who writes like Starnone and Murgia
  2. Data-Compression Approach to Authorship Attribution (M.Lalli, F.Triа, V.Loreto) — метод на основе алгоритмов сжатия/архивирования данных:
    within the corpus considered, Domenico Starnone is the most likely author behind Elena Ferrante
  1. Blended Authorship Attribution: Unmasking Elena Ferrante Combining Different Author Profling Methods (G. Mikros):
    all profling results were highly accurate (over 90%) indicating that the person behind Ferrante is a male, aged over 60, from the region Campania and the town Saviano.  The combination of these characteristics indicate a single candidate (among the authors of our corpus), Domenico Starnone.
  1. The Brilliant Friend(s) of Elena Ferrante: A Lexicometrical Comparison between Elena Ferrante’s Books and 39 Contemporary Italian Writers (P.Ratinaud) — лексическая статистика, межтекстовые расстояния в духе стилометрии:
    <..> results converge to the same finding: words used in Elena Ferrante’s books are closer to the ones used by Starnone than to any other authors in the sample
  1. Elena Ferrante Unmasked (J. Savoy) — стилометрия + др. меры близости на частотностях слов + наблюдения за отдельными словами:
    The two standard and approved attribution models reach the same conclusion: Domenico Starnone is the hidden hand behind Elena Ferrante.


  1. Partners in Life, Partners in Crime? (J. Rybicki) — еще раз стилометрия в stylo:
    A series of stylometric tests for authorship, based on Burrows’s Delta procedure, which compares usage of most frequent words, was run on a corpus of novels by contemporary Italian writers, supplemented with translations by Anita Raja, recently the main suspect for being Elena Ferrante. Rather than to Raja, the tests point overwhelmingly to her husband, the writer Domenico Starnone.

<...> the above-mentioned Gatti investigation has placed the focus very strongly on just two suspects, and his insistence on Raja rather than Starnone certainly deserves serious consideration.  This is why, apart from the above general study, I compared texts by Ferrante, Starnone and Raja’s translations of Wolf in a separate series of tests. 

Figure 4 shows a network visualization of this set, and results are quite clear again.

Here, too, Starnone seems to be married to Ferrante rather than to Raja; 

Рыбицкий не исключает соавторства:

<...> this is not the first time that I investigated a collective creative writing effort by a couple. In a recent study, I looked for the respective strengths of the authorial signal of Jacek Dehnel, a writer, and his partner Piotr Tarczyński, a translator <...>. Contrarily to the Starnone/Raja ménage, the Polish authors never denied having written the two texts;<...> they always presented that as their joint effort. And yet there, too, the stylometric signal in the texts was exclusively that of the writer Dehnel – as if Tarczyński had no hand in this, and I know he had (2016). There is not enough evidence to speak of a universal mechanism in such cases; but this is one thing that might bring Anita Raja back into the Ferrante story.

...и авторства Райи тоже:

there is no running away from the unwelcome fact that Raja’s stylometric signal was modelled on that of her translations of a single writer, Christa Wolf, rather than her own writing. Stylometric studies into this area present a mixed picture: on the one hand, in translations of the same text, or even of the same original author, made by different people, the dfferences of the translators’ own signals can be discernible (Rybicki and Heydel, 2013). On the other, when more original authors and more translators are involved, some translators seem to have their own stylometric fingerprint, while others successfully avoid identification (Burrows, 2002).

...и авторства Райи тоже:

 Very often, the translated texts cluster by the original author (Rybicki, 2012, 2016). Raja may belong to either of those translators, but – especially since she has only translated Wolf – there is no way to find out which. From this point of view, the entire experiment would contain an inherent flaw, and this raises important doubts. Obviously, stylometric authorship attribution of the kind performed in this study is quite helpless if the real author is not present in the reference set of texts, and Raja might in fact be absent, and all I was comparing with Ferrante was some sort of an Italian stylometric signal for Wolf.

Кейс 2:

кто написал "Убить пересмешника"

конечно, Харпер Ли

Харпер ли?

Разберемся при участии стилометристов

Почему вообще возникли сомнения?

Вторая (и последняя) книга Харпер Ли — 2015 г.

Спор о публикации

  • С 1960 Харпер Ли ничего не публиковала 55 лет 
  • Рукопись "нашла" в сейфе юрист Харпер Ли 
  • Харпер Ли в 2015-м было 88 лет, она не видела, была прикована к инвалидной коляске и жила в доме престарелых  
  • Власти Алабамы проводили расследование дееспособности Харпер Ли
  • О самой рукописи были противоречивые утвеждения
    • черновик "УП"?
    • отдельное незаконченное произведение?

А что сам текст?

  • Многим показался слабым, несопоставимым с мощью "Убить пересмешника"
  • Сюжетно это сиквел (хотя утверждается, что написано раньше чем "УП") — героиня уже взрослая
  • Огромное разочарование в характере Аттикуса Финча ("оказался расистом")

Один ли автор?

Харпер Ли и Трумен Капоте

Почему Капоте?

  • Друг детства Харпер Ли (выросли в одном городе, которой и стал прототипом Мэйкома из "УП")
  • Капоте — прототип Дилла из "УП"
  • Когда Харпер Ли публиковала "УП", Капоте ничего крупного не публиковал
  • После 1960 не публиковалась уже Харпер Ли
  • Зато Капоте написал свою знаменитую true-crime книгу "In Cold Blood" — и известно, что Харпер Ли ездила с ним собирать материал
  • Гипотеза: "Капоте — со-автор или даже основной автор "УП". Харпер Ли отблагодарила его помощью в работе с In Cold Blood"

Эту гипотезу и отправились проверять стилометристы

Харпер Ли похожа на себя!

Харпер Ли

И кстати, мы можем это воспроизвести в stylo:

> data(lee)

> stylo (frequencies=lee)

Еще одна подозреваемая

Тереза "Тэй" Хохоф, редактор "Убить пересмешника"

фото отсюда

"Какие ваши доказательства улики?"

  • После того как издательство J.P. Lippincott приняло у Ли рукопись "Убить пересмешника", Хохофф вместе с Ли несколько лет работали над текстом
  • Хохофф говорила, что в начале текст представлял собой "скорее сборник рассказов, чем единый роман" 
  • Скорее всего, без Хохофф романа "Убить пересмешника" бы просто не было 
  • Гипотеза: "Убить пересмешника" — творение Хохофф, а вот "Пойди поставь сторожа" — это настоящая Ли
    (снова хэштег #разочарование)

Однако единственная книга Хохофф не похожа ни на один из двух текстов Харпер Ли:

Что читать об этом

  1. Go Set A Watchman while we Kill the Mockingbird In Cold Blood — публикация 2015 года, где есть Ли и Капоте
  2. Go Set A Watchman while we Kill the Mockingbird in Cold Blood, with Cats and Other People — продолжение 2016 года, где появляется еще и Хохофф

But the study of literature and authorship is not only who wrote what, and who didn’t

Maciej Eder, Jan Rybicki (2016). Go Set A Watchman while we Kill the Mockingbird in Cold Blood, with Cats and Other People


Не только авторство

  1. Внутриавторская вариативность
    1. Датировка и эволюция стиля автора (стилохронология)
    2. Жанровая кластеризация
    3. Гетеронимы
  2. Коллаборация над текстом
    1. соавторство
    2. Перевод и влияние переводчика
    3. Влияние редактора

Внутриавторская стилометрия

Диккенс: датировка

Maciej Eder, Jan Rybicki

Шекспир: датировка + жанры

Толстой: датировка + циклы?

Агата Кристи: датировка и...


Мэри Вестмакотт  Роберт Гэлбрейт

Исследование гетеронимов Пессоа  (Орехов, Фишер, work in progress)

Alberto Caeiro, Álvaro de Campos, Ricardo Reis. Pessoa's Heteronyms by Almada Negreiros, 1958.

Заметим, что хронологический сигнал проявляется чаще прочих факторов

Стилохронология at scale:

1000 романов разных авторов

И тут конечно можно вспомнить истоки стилометрии — как Лютославский и ко занимались хронологией диалогов Платона

А еще здесь можно вернуться к Ферранте

  • Я уже говорил, что исследование Мачея Эдера было не про авторство, а про "развитие собственного стиля у виртуального автора" 
  • Rather than simply unmasking the name, the paper will test whether – and if yes, then to which extent – the unmasked author’s own novels differ stylistically from the works published as “Ferrante”.  

метод: rolling.classify () 

  • динамический анализ (хорошо для исследования коллаборации авторов)
  • считается Delta-расстояние в текстовом окне
  • Подробнее см. rolling stylomety 

а вот мой тест этого метода

Что увидел Мачей Эдер:

 Arguably, a clear pattern appears: while the early novels show little similarity with the assumed virtual “Ferrante”, the late works are assigned to this class with more and more confidence of the classifier. Almost all of the segments of L’amore molesto from 1992 (Fig. 4a) are classified as “Starnone”, with an exception of a relatively short passage at the end of the novel.  The voice of the virtual “Ferrante” is more noticeable in I Giorni dell’abbandono from 2002 (Fig. 4b), this time at the beginning of the novel. In La  glia oscura (2006) the share of segments by “Ferrante” is roughly equal to those of “Starnone”. In the novel L’amica geniale. Infanzia, adolescenza (2011) the style of “Ferrante” becomes predominant, which is even more visible in Storia del nuovo cognome published 2012  (Fig. 4c). This novel is a triumph of the virtual author



  • Apparently, Domenico Starnone demonstrates  <..> the ability to differentiate his own stylistic profile and the voice of his alter ego.
  • Ferrante has been gradually emerging, to become predominant in the late novels.

Коллаборация над текстом

1. Оригиналы и переводы

Оригиналы на французском:

Переводы на английский

Переводы на польский

Тоже на польский — но сигнал переводчика виден

Тоже на польский — но сигнал переводчика виден

"Ночь и день" Вирджинии Вулф, перевод на польский

Anna Kołyszko -> Magda Heydel

J. Rybicki, M.Heydel. The stylistics and stylometry of collaborative translation: Woolf’s Night and Day in Polish // Literary and Linguistic Computing 28 (4), 708-717

снова rolling.classify()

rolling stylometry

& the Shakespeare question


...и Марлоу

Генрих VI: последовательный анализ

Влияние редактора

Choiński, M., Rybicki, J. (2016). Jonathan Edwards and Thomas Foxcroft: In Pursuit of Stylometric Traces of the Editor. In Digital Humanities 2016: Conference Abstracts. Jagiellonian University & Pedagogical University, Kraków, pp. 147-149.

Влияние редактора

Consecutive segments of Edwards's Mind (1723); throughout the work, Edward's signal (red) dominates over the (absent) signal of Foxcroft.

Влияние редактора + стилохронография (опять)

Consecutive segments of Edwards's Humble Inquiry (1749); in many other fragments, dominated by Edwards (red), Foxcroft's impact is still visible. The lower band shows the strongest signal; the upper, the second strongest.

За пределами литературы

За пределами литературы

  • Unabomber Theodore Kaczynski perpetrated a number of bomb attacks on universities and airlines between 1978 and 1995

  • Promised to stop if his 35,000-word anti-industrialist “manifesto was published in major newspapers

  • Distinctive writing style and turns of phrase enabled him to be identified

За пределами литературы

  • Авторство книги Primary Colors

  • Дело Дерека Бентли 

  • Adversarial stylometry

Стилометрия и контр-стилометрия

  • деанонимизация
  • разработка стилевых анонимизаторов
  • определение демографических параметров
  • определение родного языка по стилю языка неродного

И даже по стилю кода! :-0

Стилометрия в СМИ  

Демо! 🎥

classify ()

  • тестирование определения авторства на основе Delta (и других мер стилистической близости)
  • для классификации используются стандартные алгоритмы анализа данных: машины опорных векторов, метод К ближайших соседей и т.п.
  • нужно два набора документов
    • обучающая выборка (primary_set)
    • тестовая (secondary_set) 

Классификация versus Кластеризация

Результаты выглядят так:

oppose ()

  • контрастивный анализ: выделяет слова, которые статистически отличают один набор текстов от другого
  • хорошо подходит для различных сравнительных исследований (e.g. мужчины vs женщины) 

Title Text

Есть еще rolling.delta()

  • Она как бы отрисовывает те обобщенные стилометрические расстояния, на которых работает 
  • Но ей меньше пользуются

Источники по стилометрии:

P.S. Кстати, а у нас-то что, не было после Морозова стилометристов?

Meanwhile in (Soviet) Russia

  • Виноградов В. В. (1961) Проблема авторства и теория стилей

  • Мартыненко Г.Я. (1988) Основы стилеметрии
  • Мухин М.Ю. (2011) Лексическая статистика и идиостиль автора: корпусное идеографическое исследование на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова
  • М. Ю. Михеев, Л. И. Эрлих (2017 доклад). Идиостиль и определение авторства текста по частотам служебных слов (люди переизобрели Delta, не зная о ней... 🚲 🚲)

Примеры quick and dirty исследований от наших бакалавров

Стилометрия ч. 2

By danilsko

Стилометрия ч. 2

  • 954