NB: Эту презентацию лучше не листать "стрелочками"
Вперед — ПРОБЕЛ
Назад — ШИФТ+ПРОБЕЛ
Стил(о|е)метрия
Stylometry
План стилометрической части курса
- Что такое стилометрия и откуда она взялась (с элементами детектива)
- Как работает современная стилометрия (с элементами науки)
- Практика в Stylo (понадобится R)
- Много примеров стилометрических
детективовисследований - Что можно сделать быстро и небессмысленно: примеры небольших исследований
Детектив #1
Смертельная белизна
Гэлбрэйт и Роулинг
Только стилометрия делает это в 100/300/1000-мерном пространстве
Джоан Роулинг
Немного определений
Стилеметрия
это статистический анализ отклонений между литературными стилями разных авторов или жанров
Oxford Dictionary
лежит гипотеза о том, что у авторского стиля есть как осознаваемая, так и не осознаваемая автором составляющая
Encyclopaedia of Statistical Sciences
В основе стилеметрии
Стилеметрические исследования во всем их разнообразии имеют две общие черты: тексты должны быть каким-то образом преобразованы в числа, а числа — исследованы статистическими методами
M. Eder, M. Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses
Какие элементы текста посчитать проще всего?
По-видимому, в разных стилях книжной и разговорной речи <...> частота употребления разных типов слов различна. Точные изыскания в этой области помогли бы установить структурно-грамматические, а отчасти и семантические различия между стилями <...>
В.В. Виноградов (1938) Введение в грамматическое учение о слове
Слова (частотности)
N-граммы слов
Что еще можно посчитать
- N-граммы (цепочки) символов
- 'ая', 'овый', 'остью'
- Леммы
- (конь/я/ю/ем/ями/ям/ем)
- Части речи
- Синтаксические структуры
- (в стихах) метр
Что еще можно посчитать
- общий размер словаря автора/текста
- hapax legomena (см. A. Q. Morton. 'Once. A Test of Authorship Based on Words Which Are Not Repeated in the Sample')
- длина предложения
- знаки препинания
- (в нередактированном тексте) ошибки и особенности пунктуации
...и еще
Но зачем?
Применения стилометрии
- Споры об авторстве
- Сравнение жанров
- Сравнение мужских и женских текстов
- Сравнение оригиналов и переводов
- Исследования "стилома" человека (т.н. идиостиль); ранние и поздние тексты
- Forensic linguistics, security and anonymity
Споры об авторстве
Presumably, each national literature has its own famous unsolved attribution case, such as the Shakespearean canon, a collection of Polish erotic poems of the 16th century ascribed to Mikołaj Sęp Szarzyński, the Russian epic poem The Tale of Igor’s Campaign, and many other.
Eder M. (2011) Style-markers in authorship attribution: A cross-language study of the authorial fingerprint.
Слово о полку Игореве
Слово о полку Игореве
Уже двести лет не прекращается дискуссия о том, что представляет собой «Слово о полку Игореве», — подлинное древнерусское произведение или искусную подделку под древность, созданную в XVIII веке. <...> Гибель единственного списка этого произведения лишает исследователей возможности произвести анализ почерка, бумаги, чернил и прочих материальных характеристик первоисточника. Наиболее прочным основанием для решения проблемы подлинности или поддельности «Слова о полку Игореве» оказывается в таких условиях язык этого памятника.
A.А. Зализняк. "Слово о полку Игореве": взгляд лингвиста.
Стилометрия тоже смотрит на язык памятника — и на мелкие, малозаметные детали
Первые измерения
-
1851 — математик А. де Морган предлагает длину слова как признак авторства
-
1873 — "New Shakspeare Society" Furnival, Fleay et al
-
1887 — Томас Менденхолл (T. Mendenhall), The Characteristic Curves of Composition, первая известная работа по количественному определению авторства
Начала стилеметрии
-
1867 — Campbell L. The Sophisties and Polilicus of Plato.
-
1880 — W. Dittenberger,
Sprachliche Kriterien für die Chronologie der Platonischen Dialoge
-
1890 — W. Lutosławski, Principes de stylométrie
Стилеметрия в России
-
1915 — Морозов Н.А. Лингвистические спектры
(вдохновлен Лютославским)
Потрясающий Н. А. Морозов
Потрясающий Н. А. Морозов
А еще этот человек написал "Лингвистические спектры"
- Морозову оппонировал сам Андрей Марков
- Марков А.А. Об одном применении статистического метода. 1916
- Видимо, Морозов первый осознал важность служебных слов
Как обычно, прорыв случился в 1960-е
Записки федералиста
- Серия знаковых статей эпохи Американской революции
- 12 спорных (Хэмилтон или Мэдисон)
- Статья Ф.Мостеллера и Д. Уоллеса Inference in an Authorship Problem (1963)
- '...определить авторство записок федералиста и предложить стандартный метод для решения проблем авторства'
Mosteller, Wallace, 1963
- The function words of the language appear to be a fertile source of discriminators, and luckily the high-frequency words are the strongest.
- <...>it is important to have a variety of sources of material, to allow “between writings” variability to emerge
Mosteller, Wallace, 1963
In summary, the following points are clear:
- Madison is the principal author. These data make it possible to say far more than ever before that the odds are enormously high that Madison wrote the 12 disputed papers. <...>
- <...> While choice of underlying constants (choice of prior distributions) matters, it doesn’t matter very much, once one is in the neighborhood of a distribution suggested by a fair body of data.
Размер имеет значение!
Дж. Барроуз
Most readers and critics behave as though common prepositions, conjunctions, personal pronouns, and articles — the parts of speech which make up at least a third of fictional works in English — do not really exist. But far from being a largely inert linguistic mass which has a simple but uninteresting function, these words and their frequency of use can tell us a great deal about the characters who speak them.
Preface to Computation into Criticism, 1987
Метод Delta
- Фактически стандарт в стилометрии с 2002 года
- Опирается на частотности слов (или символьных цепочек)
- Основан на очень простой математике
только Delta работает не с сырыми частотностями слов, а с z-scores, стандартными показателями
Z-score
(стандартный показатель)
где
- x – частотность слова в тексте
- µ - общая частотность слова по корпусу
- σ - стандартное отклонение частотности слова по корпусу
(вычисляется для каждого слова в каждом тексте)
Z-преобразование
Для каждого текста получается 100/300/500/1000
таких стандартизированных частотностей слов
Теперь, как мы помним, "близость" авторов можно просто измерить линеечкой
Джоан Роулинг
Но это же бред!
Да. Но это работает
Давайте проверим
Стилометрия 2
практика, боевое применение, продвинутые возможности визуализации
Что было в прошлый раз
Стилометрия
- через статистику — уловить авторский "стиль" (идиостиль, стилом, authorial fingerprint... name it)
- минимум 150 лет экспериментов
- cовременная стилометрия работает. Но только на больших (от 5 тыс. слов) и жанрово однородных текстах
- работает она на частотностях слов/лемм или символьных цепочек (character ngrams)
Джоан Роулинг
Stylo
- Пакет в языке R для стилеметрии
- в него встроена Delta
- ...и еще много других метрик близости
- есть приятный графический интерфейс!
Stylo
- О программе: сайт разработчиков Stylo
- Документ HOWTO от разработчиков
- Stylometry with R: A Package for Computational Text Analysis. M. Eder, M. Kestemont, J. Rybicki.
Инструкции для вас
Stylo: главные функции
- stylo ()
- classify ()
- rolling.delta (), rolling.classify ()
- oppose ()
stylo ()
- расчет и визуализация стилистической близости
- Различные способы кластеризации (группировки) текстов по близости
- Отображение многомерного "стилистического пространства" текстов на плоскости (Principal Component Analysis MDS, tSNE)
- списки самых частотных слов, таблицы частотности и т.д.
тетрадка для практики
Примеры применения
Харпер Ли
Вторая (и последняя) книга Харпер Ли — 2015 г.
Один ли автор?
Харпер Ли и Трумен Капоте
Харпер Ли похожа на себя!
Харпер Ли
Элена Ферранте
Title Text
Влияние редактора
Choiński, M., Rybicki, J. (2016). Jonathan Edwards and Thomas Foxcroft: In Pursuit of Stylometric Traces of the Editor. In Digital Humanities 2016: Conference Abstracts. Jagiellonian University & Pedagogical University, Kraków, pp. 147-149.
Не только авторство
- Жанры
- Влияние редактора
- Датировка
- Эволюция стиля автора
- Пол, возраст автора
- Перевод и влияние переводчика
Шекспир:
Датировка: Диккенс
Датировка: Толстой
Датировка: 1000 романов
Агата Кристи
Агата Кристи
А кто такая Мэри Вестмакотт?
Оригиналы и переводы
Оригиналы
Maciej Eder, Jan Rybicki
Переводы на английский
Maciej Eder, Jan Rybicki
Переводы на польский
Maciej Eder, Jan Rybicki
ну и Шолохов
Шолохов
Классификация versus Кластеризация
classify ()
- тестирование определения авторства на основе Delta (и других мер стилистической близости)
- для классификации используются стандартные алгоритмы анализа данных: машины опорных векторов, метод К ближайших соседей и т.п.
- нужно два набора документов
- обучающая выборка (primary_set)
- тестовая (secondary_set)
Результаты выглядят так:
rolling.classify ()
- динамический анализ (хорошо для исследования коллаборации авторов)
- считается Delta-расстояние в текстовом окне
Шекспир
...или Марлоу?
Генрих VI: последовательный анализ
"Ночь и день" Вирджинии Вулф, перевод на польский
Anna Kołyszko -> Magda Heydel
Maciej Eder, Jan Rybicki
снова rolling.delta
Влияние редактора
Choiński, M., Rybicki, J. (2016). Jonathan Edwards and Thomas Foxcroft: In Pursuit of Stylometric Traces of the Editor. In Digital Humanities 2016: Conference Abstracts. Jagiellonian University & Pedagogical University, Kraków, pp. 147-149.
Влияние редактора
Consecutive segments of Edwards's Mind (1723); throughout the work, Edward's signal (red) dominates over the (absent) signal of Foxcroft.
Влияние редактора
Consecutive segments of Edwards's Humble Inquiry (1749); in many other fragments, dominated by Edwards (red), Foxcroft's impact is still visible. The lower band shows the strongest signal; the upper, the second strongest.
Есть еще rolling.delta()
- Она как бы отрисовывает те обобщенные стилометрические расстояния, на которых работает
- Но ей меньше пользуются
oppose ()
- контрастивный анализ: выделяет слова, которые статистически отличают один набор текстов от другого
- хорошо подходит для различных сравнительных исследований (e.g. мужчины vs женщины)
Title Text
За пределами литературы
За пределами литературы
-
Unabomber Theodore Kaczynski perpetrated a number of bomb attacks on universities and airlines between 1978 and 1995
-
Promised to stop if his 35,000-word anti-industrialist “manifesto” was published in major newspapers
-
Distinctive writing style and turns of phrase enabled him to be identified
За пределами литературы
-
Скандал в Консервативной партии
-
Авторство книги Primary Colors
-
Дело Дерека Бентли
-
Adversarial stylometry
Стилометрия и контр-стилометрия
- деанонимизация
- разработка стилевых анонимизаторов
- определение демографических параметров
- определение родного языка по стилю языка неродного
И даже по стилю кода! :-0
Стилометрия в СМИ
Примеры quick and dirty
-
Достоевский — новый Гоголь? (похож ли стиль «Бедных людей» на произведения Н.В. Гоголя)
-
Может ли писатель создать писателя? Есть ли у Булгаковского мастера свой стиль, отличный от стиля Булгакова?
-
И даже стилеметрия шахмат!
Источники по стилометрии:
- Style-markers in authorship attribution: A cross-language study of the authorial fingerprint (хорошая статья Мачея Эдера)
- А тут его прочие статьи.
- ... и статьи его коллеги Яна Рыбицкого (тут, в частности, про переводы).
- Лекция Рыбицкого: youtu.be/XoZ2HMYw2U4
- Сайт Stylo и вся документация: sites.google.com/site/computationalstylistics/stylo
- Как работают метрики Delta: Outliers or Key Profiles? Understanding Distance Measures for Authorship Attribution
P.S. Кстати, а у нас-то что, не было после Морозова стилометристов?
Meanwhile in (Soviet) Russia
-
Виноградов В. В. (1961) Проблема авторства и теория стилей
- Мартыненко Г.Я. (1988) Основы стилеметрии
- Мухин М.Ю. (2011) Лексическая статистика и идиостиль автора: корпусное идеографическое исследование на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова
-
М. Ю. Михеев, Л. И. Эрлих (2017 доклад). Идиостиль и определение авторства текста по частотам служебных слов (люди переизобрели Delta, не зная о ней... 🚲 🚲)
Попробуйте сейчас обзавестись stylo, действуя по этой инструкции
Короткая ссылка на инструкцию:
tinyurl.com/yyrmv5uh
tinyurl.com/y6n3cokd
Данные для практики
Больше примеров использования стилеметрии
Детективная история 2
Кто написал "Убить пересмешника"?
Харпер Ли
Харпер ли?
Стилометрия Магистратура
By danilsko
Стилометрия Магистратура
- 1,301