Стилеметрия
 

(stylometry)

План лекции

  • Что такое стилеметрия (компьютерная стилистика) и зачем она понадобилась
  • Немного истории
  • Современная стилеметрия
  • Как это делать: пакет Stylo (демо/практикум)

Стилеметрия

это статистический анализ отклонений между литературными стилями разных авторов или жанров

Oxford Dictionary

 

 лежит гипотеза о том, что у авторского стиля есть как осознаваемая, так и не осознаваемая автором составляющая

 

Encyclopaedia of Statistical Sciences

 

В основе стилеметрии

in all their variety of material and method, have two features in common: the <...> texts they study have to be coaxed to yield numbers, and the numbers themselves have to be processed via statistics.

 

M. Eder, M. Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses

Stylometric studies

По-видимому, в разных стилях книжной и разговорной речи <...> частота употребления разных типов слов различна. Точные изыскания в этой области помогли бы установить структурно-грамматические, а отчасти и семантические различия между стилями <...>
 

В.В. Виноградов (1938) Введение в грамматическое учение о слове

 

Частотности слов

  • Леммы/словоформы 
    • в частности, служебные слова
      (function words)
  • N-граммы символов
  • POS-теги
  • Синт.структуры
  • Метрич.структуры

 

И не только слов

  • общий размер словаря автора/текста
  • hapax legomena (см. A. Q. Morton. 'Once. A Test of Authorship Based on Words Which Are Not Repeated in the Sample')
  • длина предложения
  • знаки препинания
  • (в нередактированном тексте) ошибки и особенности пунктуации

 

Другие признаки

Зачем "измерять" стиль?

  • Споры об авторстве
  • Сравнение жанров
  • Исследования "стилома" человека (т.н. идиостиль)
  • Forensic linguistics, security and anonymity

История

Споры об авторстве

Presumably, each national literature has its own famous unsolved attribution case, such as the Shakespearean canon, a collection of Polish erotic poems of the 16th century ascribed to Mikołaj Sęp Szarzyński, the Russian epic poem The Tale of Igor’s Campaign, and many other. 

 

Eder M. (2011) Style-markers in authorship attribution: A cross-language study of the authorial fingerprint.

Какие случаи спорного авторства знаете вы?

Слово о полку Игореве

Уже двести лет не прекращается дискуссия о том, что представляет собой «Слово о полку Игореве», — подлинное древнерусское произведение или искусную подделку под древность, созданную в XVIII веке. <...> Гибель единственного списка этого произведения лишает исследователей возможности произвести анализ почерка, бумаги, чернил и прочих материальных характеристик первоисточника. Наиболее прочным основанием для решения проблемы подлинности или поддельности «Слова о полку Игореве» оказывается в таких условиях язык этого памятника.

 

A.А. Зализняк. "Слово о полку Игореве": взгляд лингвиста.

Авторство через лексический выбор

Лоренцо Валла  (1407 – 1457)

  • Итальянский священник-гуманист
  • В 1439 пишет «Рассуждение о подложности так называемой дарственной грамоты Константина»   

Первые измерения 

  • 1851 — математик А. де Морган предлагает длину слова как признак авторства

  • 1873 — New Shakespeare Society (Furnival, Fleay et al)

  • 1887 — Томас Менденхолл (T. Mendenhall), The Characteristic Curves of Composition, первая известная работа по количественному определению авторства

Начала стилеметрии

  • 1867 — Campbell L. The Sophisties and Polilicus of Plato.

  • 1880 — W. Dittenberger,

    Sprachliche Kriterien für die Chronologie der Platonischen Dialoge

  • 1890 — W. Lutosławski, Principes de stylométrie

Стилеметрия в России

  • 1915 — Морозов Н.А. Лингвистические спектры
    (вдохновлен Лютославским)

Потрясающий Н.А. Морозов

Потрясающий Н.А. Морозов

И этот человек написал "Лингвистические спектры"!

  • Ему оппонировал сам Марков!
  • 1916 — Марков А.А. Об одном применении статистического метода

Прогресс стилеметрии

  • 1937 — Bolling, G.M. The Past Tense of 'To Be' in Homer

  • 1938 — Carroll, J.B. Diversity of vocabulary and the harmonic series law of word-frequency distribution

От неудач и уток...

  • Ошибка с Флетчером
  • "Фейки" про Шекспира 

...к успехам

как обычно, прорыв случился в 60-е

Записки федералиста

  • Серия знаковых статей эпохи Американской революции
  • 12 спорных (Хэмитон или Мэдисон)
  • Статья Ф.Мостеллера и Д. Уоллеса Inference in an Authorship Problem (1963
  • '...определить авторство записок федералиста и предложить стандартный метод для решения проблем авторства'

Mosteller, Wallace, 1963

Mosteller, Wallace, 1963

  • The function words of the language appear to be a fertile source of discriminators, and luckily the high-frequency words are the strongest.
  • <...>it is important to have a variety of sources of material, to allow “between writings” variability to emerge
  •  

Mosteller, Wallace, 1963

In summary, the following points are clear:

  • Madison is the principal author. These data make it possible to say far more than ever before that the odds are enormously high that Madison wrote the 12 disputed papers. <...>
  • <...> While choice of under­lying constants (choice of prior distributions) matters, it doesn’t matter very much, once one is in the neighborhood of a distribution suggested by a fair body of data.

Размер имеет значение!

Дж. Барроуз

Most readers and critics behave as though common prepositions, conjunctions, personal pronouns, and articles — the parts of speech which make up at least a third of fictional works in English — do not really exist. But far from being a largely inert linguistic mass which has a simple but uninteresting function, these words and their frequency of use can tell us a great deal about the characters who speak them.

Preface to Computation into Criticism, 1987

Meanwhile in (Soviet) Russia

  • Виноградов В. В. (1961) Проблема авторства и теория стилей

  • Мартыненко Г.Я. (1988) Основы стилеметрии (a monograph)
  • Мухин М.Ю. (2011) Лексическая статистика и идиостиль автора: корпусное идеографическое исследование на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова

Стилеметрия сегодня

state of the art

Авторство и не только:

  • Жанры
  • Влияние редактора
  • Датировка
  • Эволюция стиля автора
  • Пол, возраст автора
  • Перевод и влияние переводчика

Кто написал "Убить пересмешника"? 

Харпер Ли

Харпер ли?

Две книги

Харпер Ли и другие

Харпер Ли и другие

Харпер Ли и другие

Харпер Ли и другие

Элена Ферранте

И конечно, он!

И конечно, он!

Генрих VI

Now it's official!

Now it's official!

Жанры

Жанры: Агата Кристи

Жанры: Агата Кристи

А кто такая Мэри Вестмакотт?

Жанры: Мольер

Что это за две группы?

Мольер в переводе...

То же самое! But wait:)

Влияние редактора

Влияние редактора

Влияние редактора

Consecutive segments of Edwards's Mind (1723); throughout the work, Edward's signal (red) dominates over the (absent) signal of Foxcroft.

Влияние редактора

Consecutive segments of Edwards's Humble Inquiry (1749); in many other fragments, dominated by Edwards (red), Foxcroft's impact is still visible. The lower band shows the strongest signal; the upper, the second strongest.

Влияние редактора: и снова Харпер Ли

Датировка: Диккенс

Датировка: Толстой

Датировка: 1000 романов

Пол

Пол

За пределами литературы

За пределами литературы

  • Unabomber Theodore Kaczynski perpetrated a number of bomb attacks on universities and airlines between 1978 and 1995

  • Promised to stop if his 35,000-word anti-industrialist “manifesto was published in major newspapers

  • Distinctive writing style and turns of phrase enabled him to be identified

За пределами литературы

  • Скандал в Консервативной партии 

  • Авторство книги Primary Colors

  • Дело Дерека Бентли 

  • Adversarial stylometry

Adversarial stylometry

  • deceiving authorship detection
  • countermeasures to deception
  • de-anonymization
  • demographics detection
  • native language identification

  • ...potentially allows you to harrypoterize your fanfic =)

Немного хайпа =)  

А.А. Зализняк 

Как это делать?

Технологии современной стилометрии

Delta 

  • Benchmark since 2002
  • Makes use of most frequent words/char.n-grams (though more complex features are also possible) 
  • Has relatively simple mathematics behind (counting z-scores)

Z-score  

где

  • x – величина
  • µ - среднее для величины по корпусу
  • σ - стандартное отклонение величины по корпусу

(для кажд. слова или n-gram)

Delta при определении авторства

  1. Для всего тренировочного корпуса вычисляется N наиболее частотных слов; сохраняется частотность каждого.
  2. Далее для каждого текста в обеих выборках вычисляется z-score 
  3. z-score текстов из тестовой выборки сравниваются с z-показателями тренировочной
  4. обнаруживается текст из тренировочной, наиболее близкий классифицируемому.
  5. Его автор и объявляется автором классифицируемого текста.

Stylo

  • Пакет R для стилеметрии
  • Delta implementation 
  • ...and a handful of other measures
  • nice GUI :)

Stylo

  • Доки: https://cran.r-project.org/web/packages/stylo/stylo.pdf
  • Читать:Stylometry with R: A Package for Computational Text Analysis. M. Eder, M. Kestemont, J. Rybicki.
  • Еще немного тут: sites.google.com/site/computationalstylistics/stylo

Stylo: main functions

  • stylo () 
  • classify ()
  • rolling.delta (), rolling.classify ()
  • oppose ()

stylo () function

  • explanatory analysis with stylometric features
    • Clustering
    • Principal Component Analysis
    • MDS, tSNE and other beasts
  • visualizations of said analyses
  • wordlists, frequencies and other

classify ()

  • text classification with stylometry features
  • main tool for actual authorship attribution
  • employs standard machine-learning algorithms
  • requires two sets of documents
    • training (primary_set)
    • test (secondary_set) 

rolling.delta ()

  • dynamic changes in the text
  • text window of adjustable size

oppose ()

  • contrastive analysis 
  • words significantly preferred/avoided
  • comparison studies (e.g. male vs female styles) 

Hands on

Installing Stylo

  1. open R console 
  2. install.packages("stylo")
  3. library("stylo")

Setting working directory

  1. unzip archive to D:/
  2. getwd() 
  3. setwd ("D:/stylo/wd/exp1")

First experiment:

comparing Brontë sisters

  1. stylo()

Можно и без GUI

stylo(gui = FALSE, corpus.dir = "corpus", analysis.type = "PCV")

Можно и без GUI... и сразу в файл

stylo(gui = FALSE, corpus.dir = "corpus", analysis.type = "PCV" , write.png.file = TRUE)

Second experiment:

Brontës meet... Ivanhoe

  1. setwd ("../exp2")
  2. stylo()

Third experiment:

Russians are coming

  1. setwd ("../exp3")
  2. stylo()
  3. classify ()

Fourth experiment:

Exposing J.K. Rowling

  1. data ("galbraith")
  2. stylo(frequencies = galbraith)

Стилеметрия_Лицей

By danilsko

Стилеметрия_Лицей

  • 1,240