Reading the
historian's primary sources
in the digital age

Frédéric Clavert / 19/12/2012

Table of content



  1. As an Introduction
  2. The Close / Distant Reading Scale
  3. The Human / Computer Assisted Reading Scale
  4. Conclusion



1. As an introduction


Let's start with an example


  • PhD: Hjalmar Schacht, financier et diplomate
  • One of the point to be studied: why did the conservatives became allies to Hitler in January 1933?
  • Which role for antisemitism in this alliance?

One single document

Martin Luther als Deutscher, speech from the president of the German Reichsbank, Hjalmar Schacht
(BArch R2501/6985, s. 176-197)

One hypothesis

  • Content of this speech implies a "dissimilation" antisemitism, which allows Schacht to draw a direct link  between Martin Luther and Hitler,


  • A divided historiography
    • Small "Streit" around the Goerdeler's paper in 2006 (Mommsen / Hoffmann) on h-german.

    • My hypothesis: this antisemitism at least played a "negative" role in abolishing moral barriers to an alliance with the NSDAP.

    How to test this Hypothesis


    • Need for distance from one single document;
    • Trying to embrace more sources (primary and secondary), to replace this speech in a more general context, to link it with other documents


    => Importance of mixing a close reading (related to the document itself) and a more distant reading, linking a big number of documents together and putting them into context.

    And the digital?

    • Digital tools allow us to:
      • Make a better close reading
      • Empower the historians to a distant reading define as such:
    distant reading explicitly ignores the specific features of any individual text [...] in favor of gleaning larger trends and patterns from a corpus of texts.

    In my cas, it would have allowed me, in my PhD, to be far more convincing about myconservatives' antisemitism hypothesis.

    A double scale:


    Human / computing


    Close / distant




    2. The Close / Distant Reading Scale

    Close reading has its roots in the philological traditions of the humanities, but for more than a generation has often been equated with deep hermeneutics and exegesis, techniques in which interpretations are “excavated” from a text through ever-closer readings of textual evidence, references, word choices, semantics, and registers. 

    Distant reading is almost not reading at all, but rather engages the abilities of natural language processing to extract the gist of a whole mass of texts and summarize them for a human reader in ways that allow researchers to detect large-scale trends, patterns, and relationships that are not discernable from a single text or detailed analysis.

    A. Burdick, J. Drucker, P. Lunenfeld, T. Presner, et J. Schnapp, Digital_Humanities. The MIT Press, 2012, p. 39

    A need for distance

    Si je reprends les deux exemples d’expérience des archives décrits ci-dessus, le premier cas implique une forte proximité avec les archives, mais le second cas montre qu’il est parfois nécessaire d’avoir une relation plus distante aux sources primaires. Cette distanciation permet à l’historien non seulement de voir apparaître des éléments qu’une lecture trop proche ne lui aurait pas permis de voir, mais également de resituer le document dans un ensemble plus large et interconnectés de documents. En effet, une archive seule, en tout cas en histoire contemporaine, n’est pas toujours très significative. Nous essayons autant d’interpréter un document qu’un ensemble de documents. Nous devons également prêter attention à la manière dont les archivistes ont classé les sources primaires [7]. Pourquoi trouvons-nous tel brouillon de discours dans telle série d’archives plutôt que dans telle autre? Cette question est parfois aussi importante que le contenu d’un document – ou que l’absence d’un document.

    Par exemple, il existe dans les archives de la chancellerie du Reich un échange de lettres entre le ministre chinois des Finances Kung et Hjalmar Schacht, alors ministre sans portefeuille et président (affaibli) de la Reichsbank. Elles ne sont pas dans les archives de la Reichsbank, mais bien à la Chancellerie, ce qui montre qu’elles ont été vues par les services d’Hitler – et notamment le secrétaire général de la Chancellerie, Lammers. Or les relations entre Kung et Schacht remontent à 1933. Pourquoi seul cet échange de lettres est-il disponible dans la série R43 (la chancellerie) [8]?

    Pour répondre à cette question, il faut avoir une vision globale, non seulement des documents consultés, mais des relations extérieures du IIIe Reich. L’Allemagne était traditionnellement un soutien de la Chine contre le Japon, mais également contre des Puissances occidentales (le Royaume Uni, la France et les États-Unis). Or, à partir de 1936, par proximité idéologique et stratégique avec le Japon, le IIIe Reich opère un revirement fondamental par un rapprochement avec ce dernier qui, dans les années 1930, passe progressivement la Chine sous sa coupe. Mais cela n’a pas empêché des livraisons d’armes allemandes au Guomindang et de nombreuses missions (aux objectifs plus ou moins clairs) auprès de Tchang Kaï-chek. L’échange de lettres se trouve à la chancellerie car, fin 1937, le revirement diplomatique allemand est quasiment achevé: il ne s’agit plus de livrer des armes aux Chinois [9].

    Il y a une seconde raison à la présence de ces documents à la chancellerie plutôt qu’à la Reichsbank, qui, cette fois, est intérieure. Hjalmar Schacht, en 1937, est sur la sellette. Il a perdu le ministère de l’Économie au profit de Walter Funk, un ancien journaliste économique travaillant alors au ministère de la propagande, qui fait plus ou moins office de marionnette de Göring qui dirige le plan de 4 ans. Schacht n’a plus de marge de manœuvre en politique extérieure et ses espoirs de se reposer sur son influence extérieure (notamment pendant la mission van Zeeland [10]) pour maintenir son pouvoir s’évanouissent, à l’image des quelques conservateurs restant dans les instances étatiques allemandes.

    What's changing
    with distant reading?

    Distant reading is almost not reading at all, but rather engages the abilities of natural language processing to extract the gist of a whole mass of texts and summarize them for a human reader in ways that allow researchers to detect large-scale trends, patterns, and relationships that are not discernable from a single text or detailed analysis.

    Back to "Luther als Deutscher"

    • Best way to proceed to distant reading: building a corpus of the conservatives's speeches / making the difference between those controlled by Goebbels and the "free" speeches.
    • Running an analysis of the corpus
    • Could be an entire research project.

    What's new?

    • The amount of primary sources that can be delt with by a historian
    • Can

    The second scale:
    Human / Computing reading

    "Computing reading" is in fact a "Computer assisted human reading"  (ie the algorithms used, the way to use softwares, to design digital research infrastructure is till made by humans.

    Prenons un exemple: Lauren F. Klein, à la conférence Digital Humanities 2012 à Hambourg, a montré comment elle pouvait avancer sur l’histoire de l’esclavage aux États-Unis par une analyse de réseau et des techniques de visualisation [13]. La problématique est la suivante: Jefferson, comme beaucoup d’autres bourgeois états-uniens de son époque, n’évoque ses esclaves que par leurs prénoms. Grâce aux méthodologies numériques et en utilisant l’édition numérique des papiers de Thomas Jefferson, elle a pu compenser cette absence. Ici, une lecture distante des archives via une appréhension computationnelle de ces documents alternant avec une lecture humaine (car elle a dû vérifier un grand nombre de données) permet de parler des esclaves malgré l’absence de leur nom de famille.

    Cette articulation entre lecture humaine et lecture computationnelle n’est pas nouvelle. Elle a déjà existé dans le domaine de l’histoire économique quantitative.

    Franco Moretti commence, dès son premier article sur les “graphs”, par une référence à l’école des Annales et la manière dont elle exploitait des données quantitatives pour l’écriture de l’histoire économique. Il suggère, un demi-siècle plus tard, de l’importer dans l’histoire de la littérature. Son argument mérite que l’on s’y arrête: l’histoire de la littérature se concentre sur quelques dizaines / centaines d’auteurs et un corpus de livres de, là aussi, quelques centaines d’ouvrages. Mais le nombre d’auteurs et d’ouvrages publiés, depuis le XVIIIe, est bien plus important. L’histoire de la littérature telle qu’elle est pratiquée est ainsi particulièrement incomplète, selon Moretti. Sa solution est d’importer les techniques de l’histoire économique quantitative (graphs), de la géographie (maps) et des sciences de l’évolution (trees). [14]. Toutefois, Moretti ne se limite pas à la lecture distanciée et computationnelle. Il souhaite une démarche bien plus pragmatique, centrée, finalement, sur les besoins du chercheur.

    Cette approche quantitative a été critiquée dès les années 1970 – soit bien avant Moretti. Paul Veyne insiste sur le particularisme et s’oppose aux simplismes des concepts. Michel de Certeau dénonce une forme d’illusion réaliste de la prétention des historiens à faire de l’histoire. Le mouvement italien de la micro-histoire, partant de l’individu pour étudier l’ensemble de la société qui l’entoure, a aussi contesté cette approche quantitative de l’histoire. Certains hérauts de l’histoire quantitative eux-mêmes se tournent vers une histoire plus locale, comme Emmanuel Leroy-Ladurie.

    Toutefois, l’ère numérique – où nous sommes plongés pleinement et entièrement désormais [15] – change à nouveau la donne. Par la numérisation des archives nées sur papier (ou film, ou …), par la multiplication des archives nées numériques (sur support comme des disquettes, cd-roms, etc. mais aussi -et surtout- sur le web), est remise pour partie au goût du jour l’utilisation des méthodologies quantitatives. Mais pas uniquement: les données, ce n’est pas que du quantitatif et apparaissent des méthodes pour faire ressortir des éléments quantitatifs d’un corpus numérique regroupant une très grande masse de documents / de données.

    Is it new?

    New economi history and the School of the Annales

    But, still something new...

    Without computing reading / distant reading:

    • Soon, no contemporary history possible

    As conclusion:
    distance and distanciation

    • To articulare human reading with computing reading - this path is being found see Google Ngrams - including traditionnal methodologies ("critique interne" / "critique externe") with new methodologies (lexicometry).
    • That means, being able continuously to go from close to distant reading, from the document to a massive amount of document
    • But also being able to use computing reading for reasonably close reading (at the document level).
  • Comment entretenir une relation humaine aux archives tout en étant capable de la dépasser?
  • Comment exploiter des données numérisées, impersonnelles d’une certaine manière, sans tomber dans les biais dans lesquels l’histoire quantitative est parfois tombée?
  • Le seul moyen est d’être capable de pratiquer une double lecture, en parallèle, des archives, du moins lorsqu’elles sont disponibles en version numérique.
  • Garder cette relation de proximité avec les sources avec une lecture humaine, proche, qui nous permet de garder le contact avec des acteurs et leur environnement.
  • Savoir à la fois améliorer la lecture proche et prendre de la distance par la lecture computationelle. 
  • Prendre de la distance, c’est pouvoir aussi comprendre les interactions entre les différentes sources, se dégager de la source unique, “sensationnelle”, pour voir le global [16].

    Sinclair, Stéfan and Geoffrey Rockwell. “Cirrus.” Voyant. 10 Dec. 2012 <http://voyant-tools.org/tool/Cirrus/>

    Sinclair, S. and G. Rockwell (2012). Cirrus. Voyant. Retrieved December 10, 2012 from http://voyant-tools.org/tool/Cirrus/

    historian_sources

    By Frédéric Clavert

    historian_sources

    • 1,497