NB: Эту презентацию лучше не листать "стрелочками"

Вперед — ПРОБЕЛ
Назад — ШИФТ+ПРОБЕЛ

Стилеметрия

она же стилометрия

это статистический анализ отклонений между литературными стилями разных авторов или жанров

 

 лежит гипотеза о том, что у авторского стиля есть как осознаваемая, так и не осознаваемая автором составляющая

 

Encyclopaedia of Statistical Sciences

 

В основе стилеметрии

Стилометрические исследования во всем их разнообразии имеют две общие черты: тексты должны быть каким-то образом преобразованы в числа, а числа — исследованы статистическими методами

 

M. Eder, M. Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses

Метод Delta

  • Фактически стандарт в стилометрии с  2002 года
  • Опирается на частотности слов (или символьных цепочек) 
  • Основан на очень простой математике

Z-score  

где

  • x – частотность слова в тексте
  • µ - общая частотность слова по корпусу
  • σ - стандартное отклонение частотности слова по корпусу

(вычисляется для каждого слова в каждом тексте)

И для каждого текста получается 100/300/500/1000 

таких чисел

Теперь "близость" авторов можно просто измерить линеечкой

Примерно так:

Только в 100/300/1000-мерном пространстве

Stylo

  • Пакет в языке R для стилеметрии
  • в него встроена Delta   
  • ...и еще много других метрик близости
  • есть приятный графический интерфейс!

Stylo

  • О программе: сайт разработчиков Stylo
  • Документ HOWTO от разработчиков
  • Stylometry with R: A Package for Computational Text Analysis. M. Eder, M. Kestemont, J. Rybicki.

Stylo: главные функции

  • stylo () 
  • classify ()
  • rolling.classify ()
  • oppose ()

stylo () 

  • расчет и визуализация стилистической близости
    • Различные способы кластеризации (группировки) текстов по близости
    • Отображение многомерного "стилистического пространства" текстов на плоскости (Principal Component Analysis MDS, tSNE) 
  • списки самых частотных слов, таблицы частотности и т.д.

classify ()

  • тестирование определения авторства на основе Delta (и других мер стилистической близости)
  • для классификации используются стандартные алгоритмы анализа данных: машины опорных векторов, метод К ближайших соседей и т.п.
  • нужно два набора документов
    • обучающая выборка (primary_set)
    • тестовая (secondary_set) 

rolling.classify ()

  • динамический анализ (хорошо для исследования коллаборации авторов)
  • считается Delta-расстояние в текстовом окне 

oppose ()

  • контрастивный анализ: выделяет слова, которые статистически отличают один набор текстов от другого
  • хорошо подходит для различных сравнительных исследований (e.g. мужчины vs женщины) 

Вспоминаем, как все это запускать

У нас есть инструкция!

Данные для практики

Загрузите сюда кластеризацию Шолохова (Cluster Analysis либо Consensus Tree):

Данные по Харпер Ли в виде сети:

Шекспир

...или Марлоу?

Генрих VI: последовательный анализ

Теперь официально!

Now it's official!

Элена Ферранте

Не только авторство

  • Жанры
  • Влияние редактора
  • Датировка
  • Эволюция стиля автора
  • Пол, возраст автора
  • Перевод и влияние переводчика

But the study of literature and authorship is not only who wrote what, and who didn’t: it can be also about similarities and differences between texts by different authors

Maciej Eder, Jan Rybicki (2016). Go Set A Watchman while we Kill the Mockingbird in Cold Blood, with Cats and Other People

 

Жанры: Шекспир

Датировка: Диккенс

Датировка: Толстой

Датировка: 1000 романов

Агата Кристи

Агата Кристи

А кто такая Мэри Вестмакотт?

Фристайл?

goo.gl/LP2tkT

Оригиналы и переводы

Оригиналы

Maciej Eder, Jan Rybicki

Переводы на английский

Maciej Eder, Jan Rybicki

Переводы на польский

Maciej Eder, Jan Rybicki

Переводы на польский

Maciej Eder, Jan Rybicki

Набоков

Jan Rybicki

"Ночь и день" Вирджинии Вулф, перевод на польский

Anna Kołyszko -> Magda Heydel

Maciej Eder, Jan Rybicki

Влияние редактора

Влияние редактора

Consecutive segments of Edwards's Mind (1723); throughout the work, Edward's signal (red) dominates over the (absent) signal of Foxcroft.

Влияние редактора

Consecutive segments of Edwards's Humble Inquiry (1749); in many other fragments, dominated by Edwards (red), Foxcroft's impact is still visible. The lower band shows the strongest signal; the upper, the second strongest.

rolling.classify()

  • еще нет GUI :((
  • для русского: rolling.classify(corpus.lang = "Other")
  • можно использовать не только Delta — например, авторы stylo и статьи про Харпер Ли используют обычно SVM:
    • rolling.classify(corpus.lang = "Other", classification.method = "svm")

Стилеметрия вне литературы

За пределами литературы

  • Unabomber Theodore Kaczynski perpetrated a number of bomb attacks on universities and airlines between 1978 and 1995

  • Promised to stop if his 35,000-word anti-industrialist “manifesto was published in major newspapers

  • Distinctive writing style and turns of phrase enabled him to be identified

За пределами литературы

  • Скандал в Консервативной партии 

  • Авторство книги Primary Colors

  • Дело Дерека Бентли 

  • Adversarial stylometry

Стилометрия и контр-стилометрия

  • деанонимизация
  • разработка стилевых анонимизаторов
  • определение демографических параметров
  • определение родного языка по стилю языка неродного

И даже по стилю кода! :-0

Стилометрия в СМИ  

Источники по стилометрии:

Кстати, а у нас-то что, не было после Морозова стилометристов?

Meanwhile in (Soviet) Russia

  • Виноградов В. В. (1961) Проблема авторства и теория стилей

  • Мартыненко Г.Я. (1988) Основы стилеметрии
  • Мухин М.Ю. (2011) Лексическая статистика и идиостиль автора: корпусное идеографическое исследование на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова
  • М. Ю. Михеев, Л. И. Эрлих (2017 доклад). Идиостиль и определение авторства текста по частотам служебных слов (люди переизобрели Delta, не зная о ней... 🚲 🚲)

Детектив

Стилеметрия 13 марта продолжение

By danilsko

Стилеметрия 13 марта продолжение

  • 1,188