NB: Эту презентацию лучше не листать "стрелочками"
Вперед — ПРОБЕЛ
Назад — ШИФТ+ПРОБЕЛ
Стил(о|е)метрия
Stylometry
Что будет
- Что такое стилометрия (с элементами детектива)
- Откуда взялась стилометрия (с элементами сторителлинга)
- Как работает современная стилометрия (с микроэлементами математики)
- Демонстрация в Stylo (с элементами R) — практика в следующий раз!
- Больше примеров стилометрических
детективовисследований
Детектив #1
Смертельная белизна
Гэлбрэйт и Роулинг
Только стилометрия делает это в 100/300/1000-мерном пространстве
Джоан Роулинг
Немного определений
Стилеметрия
это статистический анализ отклонений между литературными стилями разных авторов или жанров
Oxford Dictionary
лежит гипотеза о том, что у авторского стиля есть как осознаваемая, так и не осознаваемая автором составляющая
Encyclopaedia of Statistical Sciences
В основе стилеметрии
Стилеметрические исследования во всем их разнообразии имеют две общие черты: тексты должны быть каким-то образом преобразованы в числа, а числа — исследованы статистическими методами
M. Eder, M. Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses
Какие элементы текста посчитать проще всего?
По-видимому, в разных стилях книжной и разговорной речи <...> частота употребления разных типов слов различна. Точные изыскания в этой области помогли бы установить структурно-грамматические, а отчасти и семантические различия между стилями <...>
В.В. Виноградов (1938) Введение в грамматическое учение о слове
Слова (частотности)
N-граммы слов
Что еще можно посчитать
- N-граммы (цепочки) символов
- 'ая', 'овый', 'остью'
- Леммы
- (конь/я/ю/ем/ями/ям/ем)
- Части речи
- Синтаксические структуры
- (в стихах) метр
Что еще можно посчитать
- общий размер словаря автора/текста
- hapax legomena (см. A. Q. Morton. 'Once. A Test of Authorship Based on Words Which Are Not Repeated in the Sample')
- длина предложения
- знаки препинания
- (в нередактированном тексте) ошибки и особенности пунктуации
...и еще
Но зачем?
Применения стилометрии
- Споры об авторстве
- Сравнение жанров
- Сравнение мужских и женских текстов
- Сравнение оригиналов и переводов
- Исследования "стилома" человека (т.н. идиостиль); ранние и поздние тексты
- Forensic linguistics, security and anonymity
Stylo
- Пакет в языке R для стилеметрии
- в него встроена Delta
- ...и еще много других метрик близости
- есть приятный графический интерфейс!
Stylo
- О программе: сайт разработчиков Stylo
- Документ HOWTO от разработчиков
- Stylometry with R: A Package for Computational Text Analysis. M. Eder, M. Kestemont, J. Rybicki.
Инструкции для вас
Stylo: главные функции
- stylo ()
- classify ()
- rolling.delta (), rolling.classify ()
- oppose ()
stylo ()
- расчет и визуализация стилистической близости
- Различные способы кластеризации (группировки) текстов по близости
- Отображение многомерного "стилистического пространства" текстов на плоскости (Principal Component Analysis MDS, tSNE)
- списки самых частотных слов, таблицы частотности и т.д.
тетрадка для практики
К 15 февраля (напоминание):
-
Объединиться в команды по 2-3 человека
Сделать исследование — одно из двух:
-
Стилеметрическое
-
Корпусное (с использованием собственного корпуса и корпусного менеджера типа Voyant/AntConc; можно привлечь существующие корпуса типа НКРЯ)
-
- Можно скомбинировать, попробовать оба метода
Результат: презентация команды
-
Слайд про идею и цель исследования
-
Слайд про ваши данные: какой корпус текстов вы исследовали, как вы его получили
-
Представление результатов исследования: графики и дендрограммы из Stylo/ сети на основе Stylo / графики и диаграммы в Excel/Google Sheets. Рассказать, как вы их получили
-
Интерпретация результатов: что вы нашли, поняли, проделав это исследование
Критерии оценки
-
Внятная идея/цель исследования — 2 балла
-
Описание материалов и процедуры исследования (какие тексты/корпуса использовались, что вы с ними делали) — 2 балла
-
Результаты: дендрограммы, графики и проч. визуализации — 4 балла
-
Интерпретация и выводы — 2 балла
-
Итого: 10 баллов
Примеры симпатичных исследований
-
Достоевский — новый Гоголь? (похож ли стиль «Бедных людей» на произведения Н.В. Гоголя)
-
Может ли писатель создать писателя? Есть ли у Булгаковского мастера свой стиль, отличный от стиля Булгакова?
-
Что происходит со стилем при переводе? (исследование серии "Коты воители")
Источники по стилометрии:
- Style-markers in authorship attribution: A cross-language study of the authorial fingerprint (хорошая статья Мачея Эдера)
- А тут его прочие статьи.
- ... и статьи его коллеги Яна Рыбицкого (тут, в частности, про переводы).
- Лекция Рыбицкого: youtu.be/XoZ2HMYw2U4
- Сайт Stylo и вся документация: sites.google.com/site/computationalstylistics/stylo
- Как работают метрики Delta: Outliers or Key Profiles? Understanding Distance Measures for Authorship Attribution
Стилометрия минор 2019
By danilsko
Стилометрия минор 2019
- 1,639