Stylometry

 or how we learned that J.K. Rowling was also Robert Galbraith

Daniil Skorinkin, German Palchikov
Yerevan, August 2023

Скажем сразу

  • Стилометрия — это не магия и не «волшебная пуля»

  • Есть случаи, когда никакая статистика вам автора не определит

  • Но есть метод, который при определенных условиях работает (т.е. не на конкретном наборе авторов/ книг, а регулярно и на любом языке)

  • Есть применения за пределами авторства

Lets say straight

  • Stylometry is no magic and no silver bullet
  • There are cases when you simply can't use stylometry (lots of them)
  • But there is a method that works universally given certain conditions (not an ad hoc method)
  • It has many uses beyond authorship issues: translations, author collaboration, genre styles, stylochronology

Чему вы научитесь
What you'll learn

Измерять стилометрическую близость

Measure stylometric distances

Визуализировать эту близость
Visualize stylometric distances

Dimensionality reduction methods (PCA MDS tSNE etc)

Hierarchical philogenetic tree style dendrograms

Weighted graphs

(Weighted networks)

Apply it to different languages

Применять к разным языкам

Go beyond authorship

Применять за пределами вопросов авторства

Stylochronology

Collaboration

Translation

Постилометрим ChatGPT

Try generated texts

Узнаем историю стилометрии / Learn how Stylometry came to be

  • 1851 — A. De Morgan suggests mean word-length as an authorship feature

  • 1873 — New Shakespeare Society (Furnival, Fleay et al)

  • 1887 — T. Mendenhall, The Characteristic Curves of Composition, the first known work on quantitative authorship attribution

Спасибо за внимание

Thank you for your attention

Made with Slides.com