A Fréjus, le quatrième jour: le digital diplomatist

J'ai enfin compris pourquoi l'édition électronique m'attirait autant: la réflexion sur le document numérique, la réflexion sur le balisage de type Text encoding initiative: ce n'est rien d'autre que de la diplomatique, de la codicologie aussi ; l'analyse des digital humanities met en jeu des concepts critiques déjà mis en jeu dans les pratiques héritées de dom Mabillon. Les digital humanities tentent de préciser le format des données, le balisage formel, qualifiant le contenu au plus profond, décrivant la structure textuelle, caractérisant la matérialité naturelle du document, le tout couplé aux métadonnées des fichiers les plus pointues (de Dublincore à Mets en passant par Onyx). Les cadres de référence pour établir ce balisage sont à la fois liés au document générique -s'il s'agit d'éditer un document ancien, on prendra en considération sa matérialité et sa structure textuelle originelle- mais aussi aux objectifs poursuivis dans l'édition numérique (édition complète, visible, aisée à prendre en main, interrogeable de telle ou de telle façon…). Une fois cette caractérisation numérique définie, aboutie, le "digital humanist" se l'appropriera afin de produire son édition électronique.

De leur côté, les disciplines anciennes que constituent la diplomatique ou la codicologie tentent de caractériser et de comprendre les mêmes éléments -ou des éléments comparables- mais pour des documents anciens, qu'ils soient médiévaux ou non: on analyse le support matériel, les dimensions, les éléments d'écriture, la mise en page, la mise en forme du texte, les formules juridiques ou techniques du texte lui-même, les élements de validation ou de datation, les traces de classement et de rangement, etc. Caractériser, mais aussi comprendre: mettre en contexte ces constatations du point de vue historique, les expliquer, les justifier ou s'en étonner.

Entre l'ancien et le nouveau, entre le travail du diplomatiste sur ses chartes et celui du digital humanist sur ses données numériques, les similitudes sont apparentes. Mais le lecteur l'a bien compris: il y a aussi une gigantesque différence, stimulante comme c'est pas permis. Le diplomatiste s'affronte à un document ancien et doit analyser sa structuration afin de comprendre et expliciter ses objectifs explicites ou implicites ; le digital humanist doit structurer un document en fonction d'objects prédéfinis par lui-même ou par d'autres. Le diplomatiste doit reconstituer les processus d'écriture et de composition dans une perspective de compréhension et d'explicitation de l'histoire; le digital humanist décompose le document, le structure et le restructure, en fonction de ses objectifs de recherche et d'édition électronique. On pourrait presque dire que le digital humanist fait de la diplomatique vivante, pratique!

A Fréjus, le troisième jour: de Lou Burnard à Lou Burnard

Ecole thématique de Fréjus, sur le document numérique en SHS, troisième jour. Apprendre les grammaires. Text encoding initiative, Encoded archival description. Je ne suis pas un spécialiste des digital humanities, plutôt un de ces scholars dont parle Lou Burnard. Cela fait quand même presque dix ans que je m'intéresse aux rapports tumultueux entre les disciplines des sciences humaines et le numérique -ce qu'on appelait alors « l'informatique » puis ce qu'on a appelé « les nouvelles technologies », ce qu'on appelle maintenant les « digital humanities » et les éditions électroniques (on est en recherche de nouvelles appelations, moins ambigues, moins déterminantes, avis à la communauté). Les pas de géant accomplis depuis dix ans dans la prise en compte (« l'appropriation ») par les chercheurs de ces humanités numériques sont impressionnants, ils sautent aux yeux ici. En 2002, nous tentions de coder des textes anciens avec l'ancêtre du module « manuscrits » de la TEI, cela s'appelait Master alors: qu'est-ce qu'on souffrait, triturant nos neurones en tentant de baliser des morceaux de textes. Ici, Fréjus, octobre 2008: tout le monde « balise » avec bonheur et célérité, quelques interrogations mais pas de prévention, pas de retenue. Six ans ont passé, le « digital turn » est bien là. Désormais, nous naviguons tous dans le même paquebot, avec le pied marin.

Lou Burnard, le pape de la TEI, m'a tout à l'heure envoyé un message historique qui provient de la « crypte » de la TEI, à la suite d'une table ronde qui s'était tenue à l'IRHT, en novembre 1989. Il s'adressait alors, le 20 novembre 1989, par email à ses collègues d'Oxford et transmettait le texte de sa communication, en français. Je la reproduis ci-dessous, sans toucher à rien (j'ai juste redressé les problèmes d'accents du vieux word perfect).

——-

Via:      UK.AC.OX.VAX; 20 NOV 89 12:57:44 GMT

[…]

From:     Lou Burnard  […]

To:       U35395 […]

Subject:  des nouvelles de paris

[Just returned from pleasant couple days in Paris where I spoke at a one-day affaire organised by the IRHT folks. They paid my expenses but not travel, so I hope the budget can stand an extra 66 quid for my train fare. will post a short englang summary shortly, time permitting. I thought you might like my speech for the archives anyway. Sorry about the accents – blame it on WordPerfect

   — Lou ]

C'est pour moi un grand plaisir de me trouver encore une fois à Paris et vous dire quelques mots au sujet de la standardisation des textes electroniques, sujet déjà traité dans un volume récemment publié par le CNRS grâce aux efforts de notre hôte, Lucie Fossier, et de JP Genet. Ce sujet constituait le thème d'une conférence tenue au LISH en 1987, où des experts français, allemands, suédois, italiens (et même quelques amateurs anglais) ont discuté les possibilités de la standardisation et d'échange des bases de données historiques.

On a parlé surtout des immenses variations parmi les sources historiques et des préconceptions inévitables de ceux qui les transformaient en forme analysable par ordinateur. Pour maîtriser ces immenses volumes d'octets, qui menacent de nous submerger, l'historien doit toujours comprendre les sources d'où elles parviennent. Evidemment, on n'échappera jamais aux erreurs de transcription et de codage, non moins genantes et peut-être plus fréquentes dans les labos d'aujourd'hui que dans les scriptoria d'antan. Mais ce genre de problème est assez bien connu, et au moins est-il susceptible d'être résolu. Plus serieux, me parait-il, sont les problèmes d'interprétation. Lorsqu'un historien du moyen-âge se met a codifier (disons) les métiers (ou meme les noms) attestés dans une source quelconque, assurément il ne prétendrait jamais que les mêmes codes serviront à codifier une source de la renaissance, ou une autre source. Pourtant, le but de la standardisation ne serait-il pas de permettre exactement ce genre de comparaison? A quoi bon échanger nos textes et nos bases de données sans accord au sujet de leurs fondations théoriques? Ce qui nous manquait dans nos discussions il y a deux ans, c'était une metalangue pour décrire ces fondations,une terminologie neutre qui jouera pour les textes la meme rôle que les méthodes d'analyse de données bien connues dans le monde de l'informatique. Car il ne suffit pas simplement de réproduire (même exactement) les mots seuls d'un récit pour le comprendre et pour s'en servir. Saisir un texte est toujours et doit toujours être l'interpreter.

Si j'insiste sur ce point, c'est parce qu'il existe partout – regrettablement – des fanatiques d'informatique qui vous assureront qu'une fois saisies sur support magnetique, une fois gerées par logiciel, les données textuelles se transformeront en réalite objective. C'est faux, mais pas entièrement. Car, si on inclus dans cette saisie l'éxpression en langage standardisée des interprétations que l'on veut porter sur les données – si on exprime et les données elles- mêmes et la structure dans laquelle on les croit fonctionner – on atteindra peut-être le niveau de l'objectivité. On pourrait donc au moins comparer les mots appartenants aux métiers selon M. Untel avec ceux qui fonctionne sur le meme plan selon Mlle. Unetelle. On pourrait vérifier dans quels genres de textes de tels mots se trouvent, pour en construire de nouveau une typologie. Ces comparaisons exigent, assurément, un accord entre les gens au sujet des fonctions textuelles qui doivent être distinguées – et c'est sur cette tâche non negligeable que nos efforts devraient se concentrer.

Dans le cours de hiver 1987, j'ai eu le plaisir (un peu douteux du point de vue météo) d'assister à une autre conférence sur la standardisation qui avait lieu à New York. Là, il n'était plus question de la possibilité de standardisation des formats électroniques des textes, mais plutôt d'une nécessité absolue. Cette conférence, organisée par l'Association for Computers and the Humanities, réunissait les représentants d'une trentaine de grandes organisations et sociétés de récherche américaines et européenes, et aussi de la plupart des archives et des collections de textes électroniques connues sur le plan mondial. A la surprise géneral, on constata unanimement les résultats désastreux de l'absence d'une méthode d'encodement universellement consentie. Chaque projet important ayant dû découvrir en partant de zéro ses propres solutions à des problemes fondamentalement semblables, on voyait partout un gaspillage des moyens restreints et un veritable méli-mélo de codages. On ne s'attendait plus à une cacophonie – on l'avait.

De cette conférence, grâce aux efforts d'une petite bande de fanatiques, dont j'ai l'honneur de faire partie, est née la Text Encoding Initiative, un effort vraiment international, financée par le National Endowment for the Humanities et par la Communauté Européene, mais dirigée surtout par la communauté internationale des chercheurs. Cette initiative a pour but l'élaboration et la promotion d'un ensemble de "guidelines" – lignes directrices – pour la préparation et l'échange des textes éléctroniques dans la recherche, dont la première version sortira en juin 1990. Malheureusement le temps me manque pour vous expliquer toute la structure de l'entreprise, pour interessante qu'elle soit pour les amateurs des structures byzantines. Pour simplifier, je ne dirai que deux mots sur ses principes.

D'abord, il faut distinguer les recommendations sur deux plans – le "quoi" et le "comment". Par le "quoi" j'entends les traits des données textuelles – quels eléments des discours étudiés – devraient etre signalés dans une texte; par le "comment", la manière de les signaler. Je ne dirai pas grand chose sur ce dernier: heureusement, il éxiste déjà une métalangue standardisée, élaborée par les informaticiens pour décrire les codages divers dont se sert l'édition électronique. Cette langage, la SGML (Standard Generalised Markup Language) est déjà acceptée par la ISO et ça serait vraiment bête de la réinventer. C'est un langage qui a été

inventé exprès pour décrire les structures des textes, indépendement et de leur réalisation et de leur application. Tout ce qui nous concerne à son égard est que ses pouvoirs soient à la hauteur des besoins des chercheurs en sciences humaines – une race, je le dis avec fierté, à la fois éxigeante et tetue.

C'est plutot le "quoi" de nos efforts que je voudrais porter a votre attention.  Il s'agit de définir un ensemble minimal de traits textuels, sur lequel on peut etre d'accord. Avec ce minimum on peut garantir notre premier but: l'échange et l'integration consequente de textes preparées en des lieux différents pour des recherches diverses.  On peut également garantir de traduire en ce format les grands masses de textes déja existantes dans le monde, pourvu qu'elles reconnaissent l'éxistence de cet ensemble minimal de traits.

Définir cet ensemble est le travail de trois des quatre commités operatifs de l'Initiative. Un commité s'occupe des traits relatifs à la description bibliographique des sources textuelles; un autre des traits conventionellement réalisés physiquement, par exemple l'orthographe, les structures telles que les paragraphes, les titres etc. mais aussi les structures formelles de certain genres de récit litteraire; le troisième vise tout le plan interpretatif. Pour commencer, ce commité énumerera les traits linguistiques – la phonologie, la morphologie et le syntaxe par exemple.

On sait bien que les standards ne s'imposent pas: ils doivent être acceptés, même voulus, et par tous. Il faut donc que nos "Guidelines" soient extensibles et qu'elles soient capables de soutenir différents modèles théoriques. Il faut aussi qu'elles soient créées par la communauté intellectuelle qui en jouirra.

Si vous voulez participer à nos efforts, n'hesitez pas – on a besoin de vos connaissances!

——–

Je remercie Lou de m'avoir permis de publier cette communication ici, à quasi vingt ans d'intervalle. On mesure maintenant le chemin parcouru, les avancées prodigieuses et les questions ou problèmes qui subsistent. Rule Britannia !

A Fréjus, le deuxième jour

Ecole thématique de Fréjus, sur le document numérique en SHS: je sors du Moyen Âge (mais pas complètement) pour rentrer en récollection numérique. Présentes, une quarantaine de personnes des sciences humaines. Leur « apprendre » les humanités digitales, promouvoir l'échange, construire la communauté des « digital humanities ». Je ne détaillerai pas ici l'état d'avancement des travaux, je vous renvoie au site de l'école, mis à jour en quasi-live et à la page facebook.

De plus en plus je suis convaincu que le « digital turn », le passage au numérique, est beaucoup plus déterminant que ce que la communauté scientifique imagine. Les lecteurs du blog savent qu'une de mes obsessions est la rédaction d'un manuel de critique appliquée au document numérique. Le projet vient d'avancer brutalement. Tout ceci grâce à un exposé que nous avons quasi-improvisé, Christophe J et moi-même, en six ou huit heures, au volant de la voiture qui nous a fait traverser la France, un projet que nous avons présenté hier soir, dans un état d'excitation scientifique assez avancé. Nous avons voulu décomposer le processus de création de la source, du document, son passage au numérique, sa transformation en données et son passage au broyage des applications. Nous avons voulu conceptualiser de manière pointue, mode « Michel Foucault » activé, dans une perspective de déconstruction et reconstruction intellectuelle. Nous avons mis en avant le continuum de production et de transformation du « document natif » au « document numérique »: le document numérique est un avatar du document originel ; la meilleure façon de prendre en considération toute la structure complexe de ce document, c'est de le qualifier, de le gloser en XML TEI. Voilà qu'on recueille le regard bienveillant de Lou Burnard. Et soudain on se rend compte qu'il fait grand soleil à Fréjus.

Image1

Aux Archives…

Aux archives départementales du P…

Il faut d'abord demander à voir les documents originaux. Ca ne va pas toujours de soi. Le métier des archivistes a d'autres impératifs que celui des historiens… Certains historiens n'ont pas assez de respect pour les archivistes, qu'ils considèrent comme les gardes-chiourmes d'un trésor dont l'accès leur est dû à eux, et eux seuls, et sans aucune restriction. Et cependant… mon passé d'archiviste m'a convaincu que parler de "protection du patrimoine" n'est pas un vain mot: combien de sceaux médiévaux explosés, de papiers déchirés, de parchemins mélangés n'ai-je pas retrouvés, victimes de l'incurie des lecteurs… Le respect des historiens pour le travail de l'archiviste est une nécessité.

Mais revenons aux archives.

Vient le temps de la consultation. La boîte vient d'arriver. Elle est déposée, à quelques mètres de moi. Passe l'historien local de service, disert, achilletalonesque… il se promène partout, guilleret, distillant ses petits commentaires… J'aime bien ce petit monde des archives, les lecteurs y forment une sorte de famille, on ne s'y sent jamais seul… et même si la salle est vide, restent les archives -elles sont toujours bien vivantes!

Les rouleaux de parchemin se succèdent, les ombres se précisent, les hommes apparaissent, floutés, dans les hastes et les boucles… La poussière des archives anciennes a toujours la même odeur âcre, elle colle aux mains, comme le poison sur les doigts des moines que cotoie Guillaume de Baskerville. Mais c'est une drogue, une ivresse et non un poison. Aux Archives…

Image1