Des archives et des mots-clés. Moteurs de recherche, interfaces et pratiques numériques discrètes des historien·ne·s.

20 November 2023

Des archives et des mots-clés. Moteurs de recherche, interfaces et pratiques numériques discrètes des historien·ne·s.
Journée d'études organisée dans le cadre du projet CulturHIST.

Le 20 novembre à Belval, Caroline Muller (EA Tempora, Université de Rennes 2) et Frédéric Clavert (C²DH) invitent à une journée d'études dans le cadre de leur projet CulturHIST.

En 2012, Nicolas Delalande et Julien Vincent proposaient une description de l’historien·ne en cyborg :

« Lectores, ils ne consultent plus guère les catalogues papier des bibliothèques, mais se reportent aux bases de données disponibles en ligne ; ils débutent toute recherche par une série de sondages sur diverses banques de textes ; ils continuent de manier les index à la fin des livres, mais ne conçoivent plus de se passer des moteurs de recherche par mots ou par suites de mots1. »

En dix ans, le constat peut être fait d’une tendance renforcée : l’usage répandu et fréquent, si ce n’est universel et quotidien, des moteurs de recherche du web a manifestement eu une influence majeure sur les pratiques historiennes dans les salles de lecture des centres d’archive, qu’elles soient physiques ou virtuelles.

Lancé en 1998, l’interface épurée du moteur de recherche Google, devenu en peu de temps leader du marché, a fait florès tout comme sa logique de recherche : un design qui encourage l’usage d’un ou de plusieurs mot-clé et un algorithme, le PageRank, qui se concentre sur les liens entre les pages autant que sur leur contenu. En quelques mois, l’ancienne génération de moteurs de recherche, d’AltaVista à Northern Light, a été reléguée au second plan puis a disparu.

En deux décennies, qu’ont fait la recherche par mots-clés et le PageRank à la discipline historique ? Cette dernière a ses spécificités, en premier lieu son attachement aux sources primaires, dont les avatars numérisés, du moins jusqu’à l'arrivée d’un logiciel comme Transkribus, faisaient l’objet d’une reconnaissance optique de caractères (OCR) souvent défaillante, faute de logiciel et d’approche adaptés. Comme l’a noté très tôt Tim Hitchcock2, s’inspirant de l’expérience de la numérisation des fonds de l’Old Bailey, l’association d’une OCR, même de bonne qualité, avec une recherche par mots-clés dans les grandes bases de données de sources primaires fait courir le risque de passer à côté de nombreux documents pertinents. En outre, les moteurs de recherche inspirés par les grandes plateformes du web héritent aussi souvent de leurs défauts et, en premier lieu, celui d’être des boîtes noires. Si les principes d’élaboration des instruments de recherche sont en général bien connus, il n’en va pas de même des logiques de fonctionnement d’outils que nous utilisons pourtant quotidiennement.

Depuis 2012, toutefois, des projets de recherche et de numérisation se sont intéressés à ce problème. Lors du premier projet impresso. Media Monitoring of the Past3 (2017-2020), les équipes impliquées ont travaillé sur la qualité de l’OCR, mais aussi sur le traitement automatique du langage (reconnaissance d’entités nommées comme des personnes, des lieux, etc) et sur la fouille de données (topic modelling) puis ont traduit ce travail dans l’interface qui permet, sans renoncer au mot-clé, de faire appel à de nombreuses autres possibilités de recherche dans le corpus de presse numérisée mis à disposition de l’utilisateur. La méthode historienne est à la base du design de l’interface entre l’historien·ne et la machine.

Au cœur de la démarche du projet CulturHIST se trouve la volonté de mettre en lumière les pratiques numériques discrètes des historien·ne·s, ces pratiques numériques non documentées mais dont la portée méthodologique peut être immense, en particulier par l’influence qu’elles ont dans la construction d’une recherche. La recherche par mots-clés et, plus généralement, l’usage d’interfaces de recherche et des moteurs qui les sous-tendent sont ainsi l’une de ces pratiques discrètes à la portée méthodologique sous-estimée.

Cette journée d’études se penchera ainsi sur les enjeux du basculement des traditions de recherche en centre d’archives – la mise au point des index, le classement des fonds, etc – vers des traditions informatiques qui lui sont externes et dont l’adaptation aux pratiques historiennes doit être questionnée.

 

Lundi, 20 novembre 2023

9:30 - 17:00

Hybride

Inscriptions auprès de frederic.clavert@uni.lu