Стилеметрия
(stylometry)
План лекции
- Что такое стилеметрия (компьютерная стилистика) и зачем она понадобилась
- Немного истории
- Современная стилеметрия
- Как это делать: пакет Stylo (демо/практикум)
Стилеметрия
это статистический анализ отклонений между литературными стилями разных авторов или жанров
Oxford Dictionary
лежит гипотеза о том, что у авторского стиля есть как осознаваемая, так и не осознаваемая автором составляющая
Encyclopaedia of Statistical Sciences
В основе стилеметрии
in all their variety of material and method, have two features in common: the <...> texts they study have to be coaxed to yield numbers, and the numbers themselves have to be processed via statistics.
M. Eder, M. Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses
Stylometric studies
По-видимому, в разных стилях книжной и разговорной речи <...> частота употребления разных типов слов различна. Точные изыскания в этой области помогли бы установить структурно-грамматические, а отчасти и семантические различия между стилями <...>
В.В. Виноградов (1938) Введение в грамматическое учение о слове
Частотности слов
- Леммы/словоформы
- в частности, служебные слова
(function words)
- в частности, служебные слова
- N-граммы символов
- POS-теги
- Синт.структуры
- Метрич.структуры
И не только слов
- общий размер словаря автора/текста
- hapax legomena (см. A. Q. Morton. 'Once. A Test of Authorship Based on Words Which Are Not Repeated in the Sample')
- длина предложения
- знаки препинания
- (в нередактированном тексте) ошибки и особенности пунктуации
Другие признаки
Зачем "измерять" стиль?
- Споры об авторстве
- Сравнение жанров
- Исследования "стилома" человека (т.н. идиостиль)
- Forensic linguistics, security and anonymity
История
Споры об авторстве
Presumably, each national literature has its own famous unsolved attribution case, such as the Shakespearean canon, a collection of Polish erotic poems of the 16th century ascribed to Mikołaj Sęp Szarzyński, the Russian epic poem The Tale of Igor’s Campaign, and many other.
Eder M. (2011) Style-markers in authorship attribution: A cross-language study of the authorial fingerprint.
Какие случаи спорного авторства знаете вы?
Слово о полку Игореве
Уже двести лет не прекращается дискуссия о том, что представляет собой «Слово о полку Игореве», — подлинное древнерусское произведение или искусную подделку под древность, созданную в XVIII веке. <...> Гибель единственного списка этого произведения лишает исследователей возможности произвести анализ почерка, бумаги, чернил и прочих материальных характеристик первоисточника. Наиболее прочным основанием для решения проблемы подлинности или поддельности «Слова о полку Игореве» оказывается в таких условиях язык этого памятника.
A.А. Зализняк. "Слово о полку Игореве": взгляд лингвиста.
Авторство через лексический выбор
Лоренцо Валла (1407 – 1457)
- Итальянский священник-гуманист
- В 1439 пишет «Рассуждение о подложности так называемой дарственной грамоты Константина»
Первые измерения
-
1851 — математик А. де Морган предлагает длину слова как признак авторства
-
1873 — New Shakespeare Society (Furnival, Fleay et al)
-
1887 — Томас Менденхолл (T. Mendenhall), The Characteristic Curves of Composition, первая известная работа по количественному определению авторства
Начала стилеметрии
-
1867 — Campbell L. The Sophisties and Polilicus of Plato.
-
1880 — W. Dittenberger,
Sprachliche Kriterien für die Chronologie der Platonischen Dialoge
-
1890 — W. Lutosławski, Principes de stylométrie
Стилеметрия в России
-
1915 — Морозов Н.А. Лингвистические спектры
(вдохновлен Лютославским)
Потрясающий Н.А. Морозов
Потрясающий Н.А. Морозов
И этот человек написал "Лингвистические спектры"!
- Ему оппонировал сам Марков!
- 1916 — Марков А.А. Об одном применении статистического метода
Прогресс стилеметрии
-
1937 — Bolling, G.M. The Past Tense of 'To Be' in Homer
-
1938 — Carroll, J.B. Diversity of vocabulary and the harmonic series law of word-frequency distribution
От неудач и уток...
- Ошибка с Флетчером
- "Фейки" про Шекспира
...к успехам
как обычно, прорыв случился в 60-е
Записки федералиста
- Серия знаковых статей эпохи Американской революции
- 12 спорных (Хэмитон или Мэдисон)
- Статья Ф.Мостеллера и Д. Уоллеса Inference in an Authorship Problem (1963)
- '...определить авторство записок федералиста и предложить стандартный метод для решения проблем авторства'
Mosteller, Wallace, 1963
Mosteller, Wallace, 1963
- The function words of the language appear to be a fertile source of discriminators, and luckily the high-frequency words are the strongest.
- <...>it is important to have a variety of sources of material, to allow “between writings” variability to emerge
Mosteller, Wallace, 1963
In summary, the following points are clear:
- Madison is the principal author. These data make it possible to say far more than ever before that the odds are enormously high that Madison wrote the 12 disputed papers. <...>
- <...> While choice of underlying constants (choice of prior distributions) matters, it doesn’t matter very much, once one is in the neighborhood of a distribution suggested by a fair body of data.
Размер имеет значение!
Дж. Барроуз
Most readers and critics behave as though common prepositions, conjunctions, personal pronouns, and articles — the parts of speech which make up at least a third of fictional works in English — do not really exist. But far from being a largely inert linguistic mass which has a simple but uninteresting function, these words and their frequency of use can tell us a great deal about the characters who speak them.
Preface to Computation into Criticism, 1987
Meanwhile in (Soviet) Russia
-
Виноградов В. В. (1961) Проблема авторства и теория стилей
- Мартыненко Г.Я. (1988) Основы стилеметрии (a monograph)
- Мухин М.Ю. (2011) Лексическая статистика и идиостиль автора: корпусное идеографическое исследование на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова
Стилеметрия сегодня
state of the art
Авторство и не только:
- Жанры
- Влияние редактора
- Датировка
- Эволюция стиля автора
- Пол, возраст автора
- Перевод и влияние переводчика
Кто написал "Убить пересмешника"?
Харпер Ли
Харпер ли?
Две книги
Харпер Ли и другие
Харпер Ли и другие
Харпер Ли и другие
Харпер Ли и другие
Элена Ферранте
И конечно, он!
И конечно, он!
Генрих VI
Now it's official!
Now it's official!
Жанры
Жанры: Агата Кристи
Жанры: Агата Кристи
А кто такая Мэри Вестмакотт?
Жанры: Мольер
Что это за две группы?
Мольер в переводе...
То же самое! But wait:)
Влияние редактора
Влияние редактора
Влияние редактора
Consecutive segments of Edwards's Mind (1723); throughout the work, Edward's signal (red) dominates over the (absent) signal of Foxcroft.
Влияние редактора
Consecutive segments of Edwards's Humble Inquiry (1749); in many other fragments, dominated by Edwards (red), Foxcroft's impact is still visible. The lower band shows the strongest signal; the upper, the second strongest.
Влияние редактора: и снова Харпер Ли
Датировка: Диккенс
Датировка: Толстой
Датировка: 1000 романов
Пол
Пол
За пределами литературы
За пределами литературы
-
Unabomber Theodore Kaczynski perpetrated a number of bomb attacks on universities and airlines between 1978 and 1995
-
Promised to stop if his 35,000-word anti-industrialist “manifesto” was published in major newspapers
-
Distinctive writing style and turns of phrase enabled him to be identified
За пределами литературы
-
Скандал в Консервативной партии
-
Авторство книги Primary Colors
-
Дело Дерека Бентли
-
Adversarial stylometry
Adversarial stylometry
- deceiving authorship detection
- countermeasures to deception
- de-anonymization
- demographics detection
-
native language identification
- ...potentially allows you to harrypoterize your fanfic =)
Немного хайпа =)
А.А. Зализняк
Как это делать?
Технологии современной стилометрии
Delta
- Benchmark since 2002
- Makes use of most frequent words/char.n-grams (though more complex features are also possible)
- Has relatively simple mathematics behind (counting z-scores)
Z-score
где
- x – величина
- µ - среднее для величины по корпусу
- σ - стандартное отклонение величины по корпусу
(для кажд. слова или n-gram)
Delta при определении авторства
- Для всего тренировочного корпуса вычисляется N наиболее частотных слов; сохраняется частотность каждого.
- Далее для каждого текста в обеих выборках вычисляется z-score
- z-score текстов из тестовой выборки сравниваются с z-показателями тренировочной
- обнаруживается текст из тренировочной, наиболее близкий классифицируемому.
- Его автор и объявляется автором классифицируемого текста.
Stylo
- Пакет R для стилеметрии
- Delta implementation
- ...and a handful of other measures
- nice GUI :)
Stylo
- Доки: https://cran.r-project.org/web/packages/stylo/stylo.pdf
- Читать:Stylometry with R: A Package for Computational Text Analysis. M. Eder, M. Kestemont, J. Rybicki.
- Еще немного тут: sites.google.com/site/computationalstylistics/stylo
Stylo: main functions
- stylo ()
- classify ()
- rolling.delta (), rolling.classify ()
- oppose ()
stylo () function
- explanatory analysis with stylometric features
- Clustering
- Principal Component Analysis
- MDS, tSNE and other beasts
- visualizations of said analyses
- wordlists, frequencies and other
classify ()
- text classification with stylometry features
- main tool for actual authorship attribution
- employs standard machine-learning algorithms
- requires two sets of documents
- training (primary_set)
- test (secondary_set)
rolling.delta ()
- dynamic changes in the text
- text window of adjustable size
oppose ()
- contrastive analysis
- words significantly preferred/avoided
- comparison studies (e.g. male vs female styles)
Hands on
Installing Stylo
- open R console
- install.packages("stylo")
- library("stylo")
Setting working directory
- unzip archive to D:/
- getwd()
- setwd ("D:/stylo/wd/exp1")
First experiment:
comparing Brontë sisters
- stylo()
Можно и без GUI
stylo(gui = FALSE, corpus.dir = "corpus", analysis.type = "PCV")
Можно и без GUI... и сразу в файл
stylo(gui = FALSE, corpus.dir = "corpus", analysis.type = "PCV" , write.png.file = TRUE)
Second experiment:
Brontës meet... Ivanhoe
- setwd ("../exp2")
- stylo()
Third experiment:
Russians are coming
- setwd ("../exp3")
- stylo()
- classify ()
Fourth experiment:
Exposing J.K. Rowling
- data ("galbraith")
- stylo(frequencies = galbraith)
Стилеметрия_Лицей
By danilsko
Стилеметрия_Лицей
- 1,366