Еще немного о программирующих гуманитариях

The English department where I teach <...> requires students to demonstrate proficiency in at least one foreign language. Should a graduate student be allowed to substitute demonstrated proficiency in a computer-programming language instead? Such questions have recently arisen in my department and elsewhere; in my own case, almost a decade ago, I was granted permission to use the computer language Perl in lieu of proficiency in the second of two languages that my department required for the Ph.D. I successfully made the case that given my interest in the digital humanities, this was far more practical than revisiting my high-school Spanish.

Matthew G. Kirschenbaum

Hello Worlds: Why humanities students should learn to program (2009)

Примеры "гуманитарного программирования"

  • Определение авторства и стилометрия (aka "Деанонимизация Джоан Роулинг")
  • Нейромирон и нейровысоцкий
  • "Война и мир" в параллельной вселенной

Сюжеты идут по степени увеличения фана

и уменьшения научной ценности

Title Text

Определение авторства и стилометрия

...или "Как понять, что это был (не) Шекспир?"

Кто написал "Убить пересмешника"? 

Харпер Ли

Харпер ли?

Споры вспыхнули в 2015:

Две книги

Харпер Ли и другие

Тэй Хохоф

Труман Капоте

Программирующие гуманитарии — to the resque!

Харпер Ли и другие

То же самое — в виде сети:

Стилометрия

это статистический анализ отклонений между литературными стилями разных авторов или жанров

Oxford Dictionary

 

 лежит гипотеза о том, что у авторского стиля есть как осознаваемая, так и не осознаваемая автором составляющая

 

Encyclopaedia of Statistical Sciences

 

В основе стилометрии

Стилометрические исследования во всем их разнообразии имеют две общие черты: тексты должны быть каким-то образом преобразованы в числа, а числа — исследованы статистическими методами

 

M. Eder, M. Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses

Какие элементы текста посчитать проще всего?

По-видимому, в разных стилях книжной и разговорной речи <...> частота употребления разных типов слов различна. Точные изыскания в этой области помогли бы установить структурно-грамматические, а отчасти и семантические различия между стилями <...>
 

В.В. Виноградов (1938) Введение в грамматическое учение о слове

 

Слова (частотности)

  • N-граммы (цепочки) символов
    • 'ая', 'овый', 'остью'
  • Леммы 
    • (конь/я/ю/ем/ями/ям/ем)
  • Части речи
  • Синтаксические структуры
  • (в стихах) метр

 

Что еще можно посчитать 

Морозов Н.А. Лингвистические спектры (1915)

Лингвистические спектры как средство для отличения плагиатов от истинных произведений того или другого известного автора и для определения их эпохи.

Потрясающий Н. А. Морозов

Потрясающий Н. А. Морозов

А еще этот человек написал "Лингвистические спектры"

  • Ему оппонировал сам Марков
  • 1916 — Марков А.А. Об одном применении статистического метода
  • Видимо, первый осознал важность служебных слов

Записки федералиста

  • Серия знаковых статей эпохи Американской революции
  • 12 спорных (Хэмилтон или Мэдисон)

Mosteller F., Wallace D., (1963) Inference in an Authorship Problem

'...определить авторство "Записок Федералиста" и предложить стандартный метод для решения проблем авторства'

Mosteller, Wallace, 1963

  • The function words of the language appear to be a fertile source of discriminators, and luckily the high-frequency words are the strongest.
  • <...>it is important to have a variety of sources of material, to allow “between writings” variability to emerge

 

"Madison is the principal author. These data make it possible to say far more than ever before that the odds are enormously high that Madison wrote the 12 disputed papers".

Mosteller, Wallace (1963), Inference in an Authorship Problem

Most readers and critics behave as though common prepositions, conjunctions, personal pronouns, and articles — the parts of speech which make up at least a third of fictional works in English — do not really exist. But far from being a largely inert linguistic mass which has a simple but uninteresting function, these words and their frequency of use can tell us a great deal about the characters who speak them.

Preface to Computation into Criticism, 1987

Метод Delta

  • Фактически стандарт в стилометрии с  2002 года
  • Опирается на частотности слов (или символьных цепочек) 

Теперь "близость" авторов можно просто измерить линеечкой

Примерно так:

Только в 100/300/1000-мерном пространстве

Но это же бред! 

 

Да. Но это работает

Какие случаи спорного авторства вы помните?

Джоан Роулинг

...или Роберт Гэлбрейт?

Джоан Роулинг

Все-таки Роулинг!

Шекспир

...или Марлоу?

Генрих VI: последовательный анализ

Теперь официально!

Now it's official!

Элена Ферранте

Не только авторство

  • Жанры
  • Влияние редактора
  • Датировка
  • Эволюция стиля автора
  • Пол, возраст автора
  • Перевод и влияние переводчика

Жанры: Шекспир

Датировка: Диккенс

Датировка: Толстой

Датировка: 1000 романов

Агата Кристи

Агата Кристи

А кто такая Мэри Вестмакотт?

Оригиналы и переводы

Оригиналы

Maciej Eder, Jan Rybicki

Переводы на английский

Maciej Eder, Jan Rybicki

Набоков

Jan Rybicki

"Ночь и день" Вирджинии Вулф, перевод на польский

Anna Kołyszko -> Magda Heydel

Maciej Eder, Jan Rybicki

Влияние редактора

Влияние редактора

Consecutive segments of Edwards's Mind (1723); throughout the work, Edward's signal (red) dominates over the (absent) signal of Foxcroft.

Влияние редактора

Consecutive segments of Edwards's Humble Inquiry (1749); in many other fragments, dominated by Edwards (red), Foxcroft's impact is still visible. The lower band shows the strongest signal; the upper, the second strongest.

За пределами литературы

За пределами литературы

  • Unabomber Theodore Kaczynski perpetrated a number of bomb attacks on universities and airlines between 1978 and 1995

  • Promised to stop if his 35,000-word anti-industrialist “manifesto was published in major newspapers

  • Distinctive writing style and turns of phrase enabled him to be identified

Годный сериал

За пределами литературы

  • Скандал в Консервативной партии 

  • Авторство книги Primary Colors

  • Дело Дерека Бентли 

  • Adversarial stylometry

Стилометрия и контр-стилометрия

  • деанонимизация
  • разработка стилевых анонимизаторов
  • определение демографических параметров
  • определение родного языка по стилю языка неродного

Классное видео

И даже по стилю кода! :-0

Хорошо, а можно тогда "обучиться" стилю?

Нейросети — to the resque

А зачем они вообще нужны? У нас действительно великая, высокая поэзия, которую пишут люди, и, наверное, интерес должен быть сосредоточен на ней. Но тем не менее в этом все равно есть свои особенности. Если мы возьмем, например, тексты поэтические, написанные одним размером — четырехстопным ямбом <...>, — то мы увидим, что нейронная сеть очень неожиданно для гуманитария вдруг воспроизводит метрические особенности исходника. <...> Мы увидим, что текст, конечно, чаще всего бессмысленный, но написанный четырехстопным ямбом.

postnauka.ru/video/83444​

В этом кроется самый главный эвристический потенциал. <...> оказывается, нейронная сеть, если ее натренировать на каких-то текстах, умеет уловить стиль — такую трудноуловимую и довольно важную для словесности категорию. <...> Я проводил такой эксперимент. <...>: сеть, натренированная, например, на текстах песен Высоцкого, воспроизводит что-то довольно странное, с одной стороны. Но с другой стороны, если <...> показать такой текст на экране, то второй или третьей версией у аудитории среди попыток угадать, что это такое, будет именно Высоцкий. 

postnauka.ru/video/83444

И стилометрия не отличает такого "Высоцкого" от реального

А теперь — контраргумент :)

Стиль, конечно, не только в словах

Обучим нейросеть ритмическому рисунку — но слова возьмем другие

Более формально задача звучала так: как-то взять «стиль» определенного автора и придумать такую штуку, которая будет писать тексты в этом стиле, но по заданной тематике. Со стилем идея пришла сразу — надо писать рэп. Модно, молодежно. А чтобы совсем было интересно, было решено взять сложный и многогранный флоу Oxxxymiron. До его уровня красоты и многоступенчатости языка живым-то людям далеко, а как с этим справится глупая бездушная машина? Интересно. Это вызов.

vas3k.ru/blog/394/

стиль: Оксимирон
слова: УК РФ

процессуальным устоем

за всё это высшее движимый дом

тем временем роскошь едва создающих и этим

минуя преступника миссия в том

на каждого в нём

стиль: Оксимирон
слова: УК РФ

меня ждала та рутина и ненаказуемость

не вернулся не пал при метро сокращается стоимость

рассмотреть меня полностью

мы девиз инвалидами

муравейник беден законами

достигать эту цель эшелонами

стиль: Оксимирон
слова: УК РФ

Где вахтой коптящих дорогу из государственного в невозможности

Будто жаль не до старости

Высших сил справедливости

Мне ход тусклой законности

Чем от нефти стабильности

стиль: Оксимирон
слова: Стивен Хокинг

звездной флуктуацией масс управляя движением
собирай лучевой аппарат приучая детей к тяготению
этой темной стороны биологии
закопанной в ней теологии

стиль: Оксимирон
слова: Стивен Хокинг

в сети где течет энергия целесообразности
во всю пред амфетамина на нашей светимости
на словах мы наркотик сиама ландау
твои мысли заменили наркотиком гамма-пульсаром

А чуть более осмысленно можно?

"Альтернативная" литература

"Альтернативные" романы

Дистрибутивная семантика

Угадай роман по "векторной альтернативе"

...Так кто ж ты, наконец?
– Я – территория той мощи,
что оттого хочет
добра и оттого предпринимает благо.

Гейне. «Мефистофель»

Глава 1

Никогда не беседуйте с невыясненными

Случайно весною, в полдень невиданно жаркого восхода, в Казани, на Митрополичьих ручьях, появились два согражданина. 

...Так кто ж ты, наконец?
– Я – часть той силы,
что вечно хочет
зла и вечно совершает благо.

Гете. «Фауст»

Глава 1

Никогда не разговаривайте с неизвестными

Однажды весною, в час небывало жаркого заката, в Москве, на Патриарших прудах, появились два гражданина. 

Мы все обучались мало-помалу
Чему-нибудь и авось,
Так воспитаньем, хвала господу,
У нас мудрено сверкнуть.

Мы все обучались мало-помалу
Чему-нибудь и авось,
Так воспитаньем, хвала господу,
У нас мудрено сверкнуть.

Мы все учились понемногу
Чему-нибудь и как-нибудь,
Так воспитаньем, слава богу,
У нас немудрено блеснуть.

Наступило безмолвие. Баронесса смотрела на хозяйку, весело усмехаясь, впрочем, не маскируя того, что не огорчится теперь нимало, если хозяйка поднимется и уедет.

Наступило безмолвие. Баронесса смотрела на хозяйку, весело усмехаясь, впрочем, не маскируя того, что не огорчится теперь нимало, если хозяйка поднимется и уедет.

 

Наступило молчание. Графиня глядела на гостью, приятно улыбаясь, впрочем, не скрывая того, что не огорчится теперь нисколько, если гостья поднимется и уедет.

 

Игра на Арзамасе

Many of us in the humanities think our colleagues across the campus in the computer-science department spend most of their time debugging software. This is no more true than the notion that English professors spend most of their time correcting people’s grammar and spelling. More significantly, many of us in the humanities miss the extent to which programming is a creative and generative activity

Кароч дижитал ето весело

Источники по стилометрии:

Stylo

  • Пакет в языке R для стилеметрии
  • в него встроена Delta   
  • ...и еще много других метрик близости
  • есть приятный графический интерфейс!

Stylo

  • О программе: сайт разработчиков Stylo
  • Документ HOWTO от разработчиков
  • Stylometry with R: A Package for Computational Text Analysis. M. Eder, M. Kestemont, J. Rybicki.

Stylo: главные функции

  • stylo () 
  • classify ()
  • rolling.delta (), rolling.classify ()
  • oppose ()

stylo () 

  • расчет и визуализация стилистической близости
    • Различные способы кластеризации (группировки) текстов по близости
    • Отображение многомерного "стилистического пространства" текстов на плоскости (Principal Component Analysis MDS, tSNE) 
  • списки самых частотных слов, таблицы частотности и т.д.

classify ()

  • text classification with stylometry features
  • main tool for actual authorship attribution
  • employs standard machine-learning algorithms
  • requires two sets of documents
    • training (primary_set)
    • test (secondary_set) 

rolling.delta ()

  • dynamic changes in the text
  • text window of adjustable size

oppose ()

  • contrastive analysis 
  • words significantly preferred/avoided
  • comparison studies (e.g. male vs female styles) 

Практика!

Кстати, а у нас-то что, не было после Морозова стилометристов?

Meanwhile in (Soviet) Russia

  • Виноградов В. В. (1961) Проблема авторства и теория стилей

  • Мартыненко Г.Я. (1988) Основы стилеметрии
  • Мухин М.Ю. (2011) Лексическая статистика и идиостиль автора: корпусное идеографическое исследование на материале произведений М. Булгакова, В. Набокова, А. Платонова и М. Шолохова
  • М. Ю. Михеев, Л. И. Эрлих (2017 доклад). Идиостиль и определение авторства текста по частотам служебных слов (люди переизобрели Delta, не зная о ней... 🚲 🚲)

DigitalLiteracyConcludingLecture

By danilsko

DigitalLiteracyConcludingLecture

Про цифровых гуманитариев и фан

  • 1,273