NB: Эту презентацию лучше не листать "стрелочками"

Вперед — ПРОБЕЛ
Назад — ШИФТ+ПРОБЕЛ

Стил(о|е)метрия

Stylometry

Что будет

  1. Что такое стилометрия (с элементами детектива)
  2. Откуда взялась стилометрия (с элементами сторителлинга)
  3. Как работает современная стилометрия (с микроэлементами математики)
  4. Демонстрация в Stylo (с элементами R) — практика в следующий раз!
  5. Больше примеров стилометрических детективов исследований

 

 

Детектив #1

Смертельная белизна

Гэлбрэйт и Роулинг

Только стилометрия делает это в 100/300/1000-мерном пространстве

Джоан Роулинг

Немного определений

Стилеметрия

это статистический анализ отклонений между литературными стилями разных авторов или жанров

Oxford Dictionary

 

 лежит гипотеза о том, что у авторского стиля есть как осознаваемая, так и не осознаваемая автором составляющая

 

Encyclopaedia of Statistical Sciences

 

В основе стилеметрии

Стилеметрические исследования во всем их разнообразии имеют две общие черты: тексты должны быть каким-то образом преобразованы в числа, а числа — исследованы статистическими методами

 

M. Eder, M. Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses

Какие элементы текста посчитать проще всего?

По-видимому, в разных стилях книжной и разговорной речи <...> частота употребления разных типов слов различна. Точные изыскания в этой области помогли бы установить структурно-грамматические, а отчасти и семантические различия между стилями <...>
 

В.В. Виноградов (1938) Введение в грамматическое учение о слове

 

Слова (частотности)

N-граммы слов

 

Что еще можно посчитать 

  • N-граммы (цепочки) символов
    • 'ая', 'овый', 'остью'
  • Леммы 
    • (конь/я/ю/ем/ями/ям/ем)
  • Части речи
  • Синтаксические структуры
  • (в стихах) метр

 

Что еще можно посчитать 

  • общий размер словаря автора/текста
  • hapax legomena (см. A. Q. Morton. 'Once. A Test of Authorship Based on Words Which Are Not Repeated in the Sample')
  • длина предложения
  • знаки препинания
  • (в нередактированном тексте) ошибки и особенности пунктуации

 

...и еще

Но зачем?

Применения стилометрии

  • Споры об авторстве
  • Сравнение жанров
  • Сравнение мужских и женских текстов
  • Сравнение оригиналов и переводов
  • Исследования "стилома" человека (т.н. идиостиль); ранние и поздние тексты
  • Forensic linguistics, security and anonymity

Stylo

  • Пакет в языке R для стилеметрии
  • в него встроена Delta   
  • ...и еще много других метрик близости
  • есть приятный графический интерфейс!

Stylo

  • О программе: сайт разработчиков Stylo
  • Документ HOWTO от разработчиков
  • Stylometry with R: A Package for Computational Text Analysis. M. Eder, M. Kestemont, J. Rybicki.

Инструкции для вас

Stylo: главные функции

  • stylo () 
  • classify ()
  • rolling.delta (), rolling.classify ()
  • oppose ()

stylo () 

  • расчет и визуализация стилистической близости
    • Различные способы кластеризации (группировки) текстов по близости
    • Отображение многомерного "стилистического пространства" текстов на плоскости (Principal Component Analysis MDS, tSNE)  
  • списки самых частотных слов, таблицы частотности и т.д.

тетрадка для практики

К 15 февраля (напоминание):

  • Объединиться в команды по 2-3 человека

    Сделать исследование — одно из двух:

    • Стилеметрическое

    • Корпусное (с использованием собственного корпуса и корпусного менеджера типа Voyant/AntConc; можно привлечь существующие корпуса типа НКРЯ)

  • ​Можно скомбинировать, попробовать оба метода

Результат: презентация команды

  • Слайд про идею и цель исследования

  • Слайд про ваши данные: какой корпус текстов вы исследовали, как вы его получили

  • Представление результатов исследования: графики и дендрограммы из Stylo/ сети на основе Stylo / графики и диаграммы в Excel/Google Sheets. Рассказать, как вы их получили

  • Интерпретация результатов: что вы нашли, поняли, проделав это исследование

Критерии оценки

  • Внятная идея/цель исследования — 2 балла

  • Описание материалов и процедуры исследования (какие тексты/корпуса использовались, что вы с ними делали) — 2 балла

  • Результаты: дендрограммы, графики и проч. визуализации — 4 балла

  • Интерпретация и выводы — 2 балла

  • Итого: 10 баллов

Примеры симпатичных исследований

Источники по стилометрии:

Стилометрия минор 2019

By danilsko

Стилометрия минор 2019

  • 1,055