L’idée d’une école d’été en humanités numériques, exceptionnelle dans son genre dans le monde francophone, capable de former les doctorants et les jeunes chercheurs aux innovations digitales appliquées à l’analyse de textes en disciplines différentes (histoire, littérature, philologie). Elle est née après un constat indéniable : une révolution épistémologique et heuristique est en cours dans les sciences humaines. Celle-ci est en train de modifier profondément les objets et les méthodes de recherche grâce à l’application du numérique à l’analyse de textes.
À mon avis, les cours choisis ont été tous parfaits pour apprendre ce que sont les humanités numériques et pour améliorer nos propres projets numériques. Je trouve que c’était bien de donner plusieurs possibilités de choix selon nos besoins - juste une semaine intense et très intéressante, avec un panorama très varié. Maintenant je sais où faire porter mon effort. J'ai beaucoup apprécié la clarté des interventions et la disponibilité des formateurs pour répondre aux questions.
Professeur Elena Pierazzo , initiatrice de l’école d’été EDEEN et professeur d’Etudes Italiennes et Humanités Numériques à l’Université de Grenoble, a terminé l’atelier en soulignant: « Moi-même je suis très engagée dans les activités de pédagogie pour la recherche, j’aime travailler avec des jeunes enthousiastes, et leur donner accès à des objets et méthodes de recherche qu’auparavant ils ne pouvaient pas du tout concevoir. C’est le cas avec le potentiel ouvert par les humanités numériques. »
Pendant la 1e session pratique nous avons été répartis en quatre groupes de questions; technologies, éditions génétique, questions computationnelles et questions sur la TEI adaptée aux multimédia (image, vidéos…).
Au début, on y a discuté la différence dans l’utilisation XML-TEI et JSON. Professeur Elena Pierazzo a déclaré que La TEI n'est pas toujours le meilleur choix (ça dépend de l'état des matériaux), mais pour les sources anciennes, ça reste le meilleur standard. La TEI fonctionne très bien pour les données semi-structurelles telles que les textes. Professeur Emmanuelle Morlock a expliqué que le JSON offre aussi les outils pour incorporer la sémantique du texte dans une fichier source. En général, des développeurs n’aiment pas trop la TEI, parce que c’est un standard un peu trop verbeux.
En conclusion
Pour la représentation sémantique de la donnée, la TEI a des avantages. Pourtant, s’il s’agit de traiter ou afficher les données, d'autres formats seraient préférables. Tout dépend de votre projet. La TEI est toujours ouverte à des versions différentes. La phase de modélisation est très importante.
La question sur la génétique
Que peut-on faire pour réaliser une édition génétique (travail sur des brouillons d’auteur) ?
Il y avait quelques définitions associées avec cette question : Les manuscrits d'auteur ne sont pas linéaires. La TEI propose des balises pour réaliser des éditions génétiques. Mais la TEI ne prévoit pas la visualisation. Il faut ensuite programmer pour visualiser les éditions. La visualisation d'une édition génétique ne reproduit pas toutes les ratures, mais la dynamique du texte. Cependant, limitation à un seul aspect de l'édition génétique : l'aspect textuel, et non l'aspect documentaire.
La visualisation numérique qui ressemble à la visualisation papier n'est pas la plus intéressante. La visualisation n'est pas toujours une fin en soi. La véritable question est plutôt quelles sont ses véritables objectifs de recherche.
Les standards d’encodage de texte (comme TEI - Text Encoding Initiative) ainsi que les techniques de diffusion web, offrent une énorme capacité de circulation d’œuvres, manuscrits, correspondances, contenus potentiellement de tous les auteurs et de toutes les époques, ce qui jusqu’à il y a vingt ans était simplement inconcevable. TEI est née il y a trente ans, néanmoins c’est pendant les dix dernières années que ce standard a connu une véritable diffusion avec des applications systématiques à la recherche en humanités numériques.
La question sur les OCR
Lorsque l'on a de nombreux fichiers en PDF, est-ce que l'on doit tout transcrire manuellement ou utiliser les OCR en toute tranquillité ?
Selon le professeur Peter Stokes, les OCR ne sont pas encore assez bons pour les éditions par exemple. Actuellement, il n’y a pas d'OCR totalement fiable (80% de précision environ), mais Transkribus sembe être le plus performant.
Professeur Elena Pierazzo lui a précisé que le niveau de précision change par rapport à l'âge du texte, la qualité de la numérisation et la langue. Les textes en anglais sont plus précis que les textes en grec ancien ou en byzantin. Il faut décider à quel moment le niveau de précision est acceptable ou non, en fonction de ses besoins. Par exemple, l'OCR n'est pas une bonne idée pour les éditions critiques (niveau de précision élevé). Certains projets tentent de faire de l'OCR pour les manuscrits, mais ce n'est pas encore parfait. Dans le cadre du projet Fonte Gaia , lors d’une tentative d’une grammaire italienne du XVI en italique, le pourcentage de succès était très bas. Finalement, nous avons mis plus de temps à corriger que si on avait transcrit directement. Professeur Anne Garcia-Fernandez a répondu à cette question qu’il puisse y avoir une erreur par mot. Lors d’une transcription manuelle, on peut avoir des erreurs. De plus, il faut aussi du temps et des ressources. Toutefois, les OCR vont répéter souvent les mêmes erreurs (on peut donc envisager d'automatiser la correction). Qui plus est, les erreurs faites par les OCR choquent l'œil humain, parce que l’humain ne les ferait pas lui-même (Plus faciles à repérer).
Son Conseil : Toujours faire un test avec l'OCR, puis de calculer le temps que cela va prendre avant de se tourner vers la transcription manuscrite. Chaque source est unique et la réponse apportée par l'OCR sera différente.
Cinquième question: Image et multimédia
Cette question est destinée aux bandes-dessinées nativement numériques. En général, des éditions numériques sur les BD sont rares à cause des problèmes liés à la gestion numérique et la pérennité des images. Pendant la table ronde, professeur Elena Pierazzo a assuré qu’il n’y a pas beaucoup d’outils pour la visualisation du texte dans l’image. Elle nous a conseillé plusieurs outils en ligne ; Image Markup Tool, Cf, EVT : correspondance Texte-Image, EVT 2 : pour l’apparat critique, EVT 1 : pour le zonage.
La question a englobé les avantages et désavantages du HTML et JavaScript. Si l’on veut de la pérennité, on peut faire du HTML (mais manque de réactivité). Parfois, HTML de base et JavaScript peuvent correspondre à vos besoins. Mais, si vous voulez quelque chose de plus avancé et complexe, l’utilisation de nouvelles technologies est conseillée, pourtant pas sans risques pour la longévité du projet.
Conseil : On lit la revue Ride (répertoire de projets d'éditions numériques avec des critères d'analyse pointues. Analyse des aspects scientifiques et technologiques). Comprendre la logique de chaque projet pour mieux modéliser le sien.