NB: Эту презентацию лучше не листать "стрелочками"
Вперед — ПРОБЕЛ
Назад — ШИФТ+ПРОБЕЛ
Stylometry
Стилометрия
...или "Как понять, что это был (не) Шекспир?"
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4239307/stylometryBackgroundFirstSlide.png)
План лекции
-
Филологический детектив
-
Что это за стилометрия такая?
-
Откуда она взялась и зачем нужна?
-
Что можно узнать с помощью стилометрии
-
в филологии...
-
...и криминалистике
-
Детектив
Кто написал "Убить пересмешника"?
Харпер Ли
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4831405/HarperLeeToKill.jpg)
Харпер ли?
Споры вспыхнули в 2015:
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4861573/watchman.png)
Две книги
![](http://www.vothouse.ru/img/books/ubit-peresmeshnika-harper-lee.jpg)
![](https://images.gr-assets.com/books/1455621546l/26889280.jpg)
Харпер Ли и другие
![](https://upload.wikimedia.org/wikipedia/commons/thumb/b/b0/TrumanCapote1959.jpg/1200px-TrumanCapote1959.jpg)
![](http://i.telegraph.co.uk/multimedia/archive/03362/69385054_Author_of_3362081b.jpg)
![](https://cdn-images-1.medium.com/max/1600/1*-2J5OxZ4Xi5A7zzXh9XYAg.jpeg)
Тэй Хохоф
Труман Капоте
Стилометрия спешит на помощь!
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4861629/wallstreet.png)
Харпер Ли и другие
![](http://dh2016.adho.org/static/data/169/100000000000096000000960D9FF05DB80EB7F5B.png)
То же самое — в виде сети:
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4239240/100002010000080000000400EB1E59515603655E.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4861741/wybor.png)
Так что такое
стил(о|е)метрия?
Стилометрия
это статистический анализ отклонений между литературными стилями разных авторов или жанров
Oxford Dictionary
лежит гипотеза о том, что у авторского стиля есть как осознаваемая, так и не осознаваемая автором составляющая
Encyclopaedia of Statistical Sciences
В основе стилометрии
Стилометрические исследования во всем их разнообразии имеют две общие черты: тексты должны быть каким-то образом преобразованы в числа, а числа — исследованы статистическими методами
M. Eder, M. Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses
Какие элементы текста посчитать проще всего?
По-видимому, в разных стилях книжной и разговорной речи <...> частота употребления разных типов слов различна. Точные изыскания в этой области помогли бы установить структурно-грамматические, а отчасти и семантические различия между стилями <...>
В.В. Виноградов (1938) Введение в грамматическое учение о слове
Слова (частотности)
- N-граммы (цепочки) символов
- 'ая', 'овый', 'остью'
- Леммы
- (конь/я/ю/ем/ями/ям/ем)
- Части речи
- Синтаксические структуры
- (в стихах) метр
Что еще можно посчитать
- общий размер словаря автора/текста
- hapax legomena (см. A. Q. Morton. 'Once. A Test of Authorship Based on Words Which Are Not Repeated in the Sample')
- длина предложения
- знаки препинания
- (в нередактированном тексте) ошибки и особенности пунктуации
...и еще
Но зачем?
Зачем "измерять" текст?
- Споры об авторстве
- Сравнение жанров
- Сравнение мужских и женских текстов
- Сравнение оригиналов и переводов
- Исследования "стилома" человека (т.н. идиостиль); ранние и поздние тексты
- Forensic linguistics, security and anonymity
Началось все, конечно же, с вопроса авторства
Какие случаи спорного авторства вы помните?
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448263/homer.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448265/pushkin.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448269/Shakespeare.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448272/_______-735x1024.jpg)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448275/JKRowling.jpg)
![](https://upload.wikimedia.org/wikipedia/ru/f/f5/M_Ageev.jpeg)
Споры об авторстве
Presumably, each national literature has its own famous unsolved attribution case, such as the Shakespearean canon, a collection of Polish erotic poems of the 16th century ascribed to Mikołaj Sęp Szarzyński, the Russian epic poem The Tale of Igor’s Campaign, and many other.
Eder M. (2011) Style-markers in authorship attribution: A cross-language study of the authorial fingerprint.
Слово о полку Игореве
Уже двести лет не прекращается дискуссия о том, что представляет собой «Слово о полку Игореве», — подлинное древнерусское произведение или искусную подделку под древность, созданную в XVIII веке. <...> Гибель единственного списка этого произведения лишает исследователей возможности произвести анализ почерка, бумаги, чернил и прочих материальных характеристик первоисточника. Наиболее прочным основанием для решения проблемы подлинности или поддельности «Слова о полку Игореве» оказывается в таких условиях язык этого памятника.
A.А. Зализняк. "Слово о полку Игореве": взгляд лингвиста.
Атрибуция текста через учет слов
- Лоренцо Валла (1407 – 1457) —итальянский священник-гуманист
- В 1439 пишет «Рассуждение о подложности так называемой дарственной грамоты Константина»
- Показывает, что "Константинов дар" не мог быть написан в IV веке — не та латынь!
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3446480/De_falso_credita_et_ementita_Constantini_Donatione_declamatio__1_.png)
Первые измерения
-
1851 — математик А. де Морган предлагает длину слова как признак авторства
-
1873 — "New Shakspeare Society" Furnival, Fleay et al
-
1887 — Томас Менденхолл (T. Mendenhall), The Characteristic Curves of Composition, первая известная работа по количественному определению авторства
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3447460/De_falso_credita_et_ementita_Constantini_Donatione_declamatio__1_.jpeg)
Начала стилеметрии
-
1867 — Campbell L. The Sophisties and Polilicus of Plato.
-
1880 — W. Dittenberger,
Sprachliche Kriterien für die Chronologie der Platonischen Dialoge
-
1890 — W. Lutosławski, Principes de stylométrie
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3447484/Ditten.gif)
Стилеметрия в России
-
1915 — Морозов Н.А. Лингвистические спектры
(вдохновлен Лютославским)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3447588/MorozovLingSpectr.gif)
![](https://upload.wikimedia.org/wikipedia/commons/2/25/Morozov1910.jpg)
Потрясающий Н. А. Морозов
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4241227/Morozov1910_cool.png)
Потрясающий Н. А. Морозов
А еще этот человек написал "Лингвистические спектры"
- Ему оппонировал сам Марков
- 1916 — Марков А.А. Об одном применении статистического метода
- Видимо, первый осознал важность служебных слов
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3447588/MorozovLingSpectr.gif)
Прогресс стилеметрии
-
1937 — Bolling, G.M. The Past Tense of 'To Be' in Homer
-
1938 — Carroll, J.B. Diversity of vocabulary and the harmonic series law of word-frequency distribution
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3447635/ToBePastTenseHomer.png)
От неудач и уток...
- Ошибка с Флетчером
- "Фейки" про Шекспира
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3459343/Shakespeare_trial_1916.jpg)
...к успехам
как обычно, прорыв случился в 60-е
Записки федералиста
- Серия знаковых статей эпохи Американской революции
- 12 спорных (Хэмилтон или Мэдисон)
- Статья Ф.Мостеллера и Д. Уоллеса Inference in an Authorship Problem (1963)
- '...определить авторство записок федералиста и предложить стандартный метод для решения проблем авторства'
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448003/Federalist.jpg)
Mosteller, Wallace, 1963
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448820/MostellerWallaceHamiltonVsMAdison.png)
Mosteller, Wallace, 1963
- The function words of the language appear to be a fertile source of discriminators, and luckily the high-frequency words are the strongest.
- <...>it is important to have a variety of sources of material, to allow “between writings” variability to emerge
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448809/MostellerWallaceFinalWords.png)
Mosteller, Wallace, 1963
In summary, the following points are clear:
- Madison is the principal author. These data make it possible to say far more than ever before that the odds are enormously high that Madison wrote the 12 disputed papers. <...>
- <...> While choice of underlying constants (choice of prior distributions) matters, it doesn’t matter very much, once one is in the neighborhood of a distribution suggested by a fair body of data.
Размер имеет значение!
Послания апостола Павла
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4861933/morton.gif)
Morton A. Q. The Authorship of the Pauline Epistles: A Scientific Solution. Saskatoon, 1965.
Дж. Барроуз
Most readers and critics behave as though common prepositions, conjunctions, personal pronouns, and articles — the parts of speech which make up at least a third of fictional works in English — do not really exist. But far from being a largely inert linguistic mass which has a simple but uninteresting function, these words and their frequency of use can tell us a great deal about the characters who speak them.
Preface to Computation into Criticism, 1987
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448099/BurrowsCompToCrit.jpg)
Метод Delta
- Фактически стандарт в стилометрии с 2002 года
- Опирается на частотности слов (или символьных цепочек)
- Основан на очень простой математике
Z-score
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3459445/Zscore.png)
где
- x – частотность слова в тексте
- µ - общая частотность слова по корпусу
- σ - стандартное отклонение частотности слова по корпусу
(вычисляется для каждого слова в каждом тексте)
И для каждого текста получается 100/300/500/1000
таких чисел
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4861918/zscores.png)
Теперь "близость" авторов можно просто измерить линеечкой
Примерно так:
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4861949/evklidovo-rasstoyanie-primer.jpg)
Только в 100/300/1000-мерном пространстве
![](https://1.bp.blogspot.com/-pgMAHiIWvuw/Tql5HIXNdRI/AAAAAAAABLI/I2zPF5cLRwQ/s1600/clust.gif)
Но это же бред!
Да. Но это работает
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4571508/1_CA_100_MFWs_Culled_0__Classic_Delta__001.png)
Стилеметрия сегодня
state of the art
Авторство и не только:
- Жанры
- Влияние редактора
- Датировка
- Эволюция стиля автора
- Пол, возраст автора
- Перевод и влияние переводчика
Джоан Роулинг
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448902/PopSci.png)
...или Роберт Гэлбрейт?
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4862885/cuckoo.jpg)
Джоан Роулинг
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4862881/galbraith_mds.png)
Все-таки Роулинг!
Шекспир
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4239318/Shakespeare1.png)
...или Марлоу?
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4239320/Shakespeare2.png)
Генрих VI: последовательный анализ
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4239325/Rollingshakespeare.png)
Теперь официально!
![](http://around-shake.ru/resources/5054-original.jpeg)
Now it's official!
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448899/ShakespeareGuardian.png)
Элена Ферранте
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4239252/Ferrante.png)
А теперь —не про авторство
But the study of literature and authorship is not only who wrote what, and who didn’t: it can be also about similarities and differences between texts by different authors
Maciej Eder, Jan Rybicki (2016). Go Set A Watchman while we Kill the Mockingbird in Cold Blood, with Cats and Other People
Жанры: Шекспир
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4239772/shake_genres.png)
Датировка: Диккенс
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4241193/Screen_Shot_2017-10-19_at_09.25.08.png)
Датировка: Толстой
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4241191/Screen_Shot_2017-10-19_at_09.25.15.png)
Датировка: 1000 романов
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4241176/Screen_Shot_2017-10-19_at_09.21.55.png)
Агата Кристи
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4239815/Christie1.png)
Агата Кристи
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4239819/Christie2.png)
А кто такая Мэри Вестмакотт?
Оригиналы и переводы
Оригиналы
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4265761/Franch.png)
Maciej Eder, Jan Rybicki
Переводы на английский
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4270231/Screen_Shot_2017-10-25_at_23.12.39.png)
Maciej Eder, Jan Rybicki
Переводы на польский
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4270234/Screen_Shot_2017-10-25_at_23.12.56.png)
Maciej Eder, Jan Rybicki
Переводы на польский
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4270237/Screen_Shot_2017-10-25_at_23.13.20.png)
Maciej Eder, Jan Rybicki
Набоков
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4270238/Screen_Shot_2017-10-26_at_07.43.00.png)
Jan Rybicki
"Ночь и день" Вирджинии Вулф, перевод на польский
![](http://www.dwutygodnik.com/public/media/image/47eb9a27.jpg)
Anna Kołyszko -> Magda Heydel
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4270245/Screen_Shot_2017-10-26_at_10.09.59.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4270253/Screen_Shot_2017-10-27_at_12.46.45.png)
Maciej Eder, Jan Rybicki
Влияние редактора
![](http://dh2016.adho.org/static/data/182/image1.png)
Влияние редактора
![](http://dh2016.adho.org/static/data/182/image2.png)
Consecutive segments of Edwards's Mind (1723); throughout the work, Edward's signal (red) dominates over the (absent) signal of Foxcroft.
Влияние редактора
![](http://dh2016.adho.org/static/data/182/image3.png)
Consecutive segments of Edwards's Humble Inquiry (1749); in many other fragments, dominated by Edwards (red), Foxcroft's impact is still visible. The lower band shows the strongest signal; the upper, the second strongest.
И еще одно влияние:
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4241080/Screen_Shot_2017-10-19_at_08.45.58.png)
Влияние редактора: снова Харпер Ли
![](http://dh2016.adho.org/static/data/169/100000000000040E00000233CE149AD949F85BF4.png)
За пределами литературы
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448190/Unabomber.jpg)
За пределами литературы
-
Unabomber Theodore Kaczynski perpetrated a number of bomb attacks on universities and airlines between 1978 and 1995
-
Promised to stop if his 35,000-word anti-industrialist “manifesto” was published in major newspapers
-
Distinctive writing style and turns of phrase enabled him to be identified
За пределами литературы
-
Скандал в Консервативной партии
-
Авторство книги Primary Colors
-
Дело Дерека Бентли
-
Adversarial stylometry
Стилометрия и контр-стилометрия
- деанонимизация
- разработка стилевых анонимизаторов
- определение демографических параметров
- определение родного языка по стилю языка неродного
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448932/Hackers.png)
И даже по стилю кода! :-0
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/4571622/code_stylometry.png)
Стилометрия в СМИ
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448898/Juola.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448899/ShakespeareGuardian.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448902/PopSci.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448905/SciAm.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3448914/EderRybHarperLeee.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3459430/Screen_Shot_2017-02-03_at_14.31.53.png)
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3459433/HarperLeeRollingDelta.png)
Stylo
- Пакет в языке R для стилеметрии
- в него встроена Delta
- ...и еще много других метрик близости
- есть приятный графический интерфейс!
Stylo
- О программе: сайт разработчиков Stylo
- Документ HOWTO от разработчиков
- Stylometry with R: A Package for Computational Text Analysis. M. Eder, M. Kestemont, J. Rybicki.
Stylo: главные функции
- stylo ()
- classify ()
- rolling.delta (), rolling.classify ()
- oppose ()
stylo ()
- расчет и визуализация стилистической близости
- Различные способы кластеризации (группировки) текстов по близости
- Отображение многомерного "стилистического пространства" текстов на плоскости (Principal Component Analysis MDS, tSNE)
- списки самых частотных слов, таблицы частотности и т.д.
classify ()
- text classification with stylometry features
- main tool for actual authorship attribution
- employs standard machine-learning algorithms
- requires two sets of documents
- training (primary_set)
- test (secondary_set)
rolling.delta ()
- dynamic changes in the text
- text window of adjustable size
![](https://s3.amazonaws.com/media-p.slid.es/uploads/641147/images/3459433/HarperLeeRollingDelta.png)
oppose ()
- contrastive analysis
- words significantly preferred/avoided
- comparison studies (e.g. male vs female styles)
Источники по стилометрии:
- Style-markers in authorship attribution: A cross-language study of the authorial fingerprint (хорошая статья Мачея Эдера)
- А тут его прочие статьи: scholar.google.com/citations?user=Kn3f_uIAAAAJ&hl=en
- ... и статьи его коллеги Яна Рыбицкого (тут, в частности, про переводы): scholar.google.de/citations?user=6HavmgcAAAAJ&hl=en
- Лекция Рыбицкого: youtu.be/XoZ2HMYw2U4
- Про Харпер Ли: dh2016.adho.org/static/data/169.html
- Сайт Stylo и вся документация: sites.google.com/site/computationalstylistics/stylo
Кстати, а у нас-то что, не было после Морозова стилометристов?
Meanwhile in (Soviet) Russia
-
Виноградов В. В. (1961) Проблема авторства и теория стилей
- Мартыненко Г.Я. (1988) Основы стилеметрии
- Мухин М.Ю. (2011) Лексическая статистика и идиостиль автора: корпусное идеографическое исследование на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова
-
М. Ю. Михеев, Л. И. Эрлих (2017 доклад). Идиостиль и определение авторства текста по частотам служебных слов (люди переизобрели Delta, не зная о ней... 🚲 🚲)
Стилометрия Минор 2018
By danilsko
Стилометрия Минор 2018
- 2,019