Ecole thématique de Fréjus, sur le document numérique en SHS, troisième jour. Apprendre les grammaires. Text encoding initiative, Encoded archival description. Je ne suis pas un spécialiste des digital humanities, plutôt un de ces scholars dont parle Lou Burnard. Cela fait quand même presque dix ans que je m'intéresse aux rapports tumultueux entre les disciplines des sciences humaines et le numérique -ce qu'on appelait alors « l'informatique » puis ce qu'on a appelé « les nouvelles technologies », ce qu'on appelle maintenant les « digital humanities » et les éditions électroniques (on est en recherche de nouvelles appelations, moins ambigues, moins déterminantes, avis à la communauté). Les pas de géant accomplis depuis dix ans dans la prise en compte (« l'appropriation ») par les chercheurs de ces humanités numériques sont impressionnants, ils sautent aux yeux ici. En 2002, nous tentions de coder des textes anciens avec l'ancêtre du module « manuscrits » de la TEI, cela s'appelait Master alors: qu'est-ce qu'on souffrait, triturant nos neurones en tentant de baliser des morceaux de textes. Ici, Fréjus, octobre 2008: tout le monde « balise » avec bonheur et célérité, quelques interrogations mais pas de prévention, pas de retenue. Six ans ont passé, le « digital turn » est bien là. Désormais, nous naviguons tous dans le même paquebot, avec le pied marin.
Lou Burnard, le pape de la TEI, m'a tout à l'heure envoyé un message historique qui provient de la « crypte » de la TEI, à la suite d'une table ronde qui s'était tenue à l'IRHT, en novembre 1989. Il s'adressait alors, le 20 novembre 1989, par email à ses collègues d'Oxford et transmettait le texte de sa communication, en français. Je la reproduis ci-dessous, sans toucher à rien (j'ai juste redressé les problèmes d'accents du vieux word perfect).
——-
Via: UK.AC.OX.VAX; 20 NOV 89 12:57:44 GMT
[…]
From: Lou Burnard […]
To: U35395 […]
Subject: des nouvelles de paris
[Just returned from pleasant couple days in Paris where I spoke at a one-day affaire organised by the IRHT folks. They paid my expenses but not travel, so I hope the budget can stand an extra 66 quid for my train fare. will post a short englang summary shortly, time permitting. I thought you might like my speech for the archives anyway. Sorry about the accents – blame it on WordPerfect
— Lou ]
C'est pour moi un grand plaisir de me trouver encore une fois à Paris et vous dire quelques mots au sujet de la standardisation des textes electroniques, sujet déjà traité dans un volume récemment publié par le CNRS grâce aux efforts de notre hôte, Lucie Fossier, et de JP Genet. Ce sujet constituait le thème d'une conférence tenue au LISH en 1987, où des experts français, allemands, suédois, italiens (et même quelques amateurs anglais) ont discuté les possibilités de la standardisation et d'échange des bases de données historiques.
On a parlé surtout des immenses variations parmi les sources historiques et des préconceptions inévitables de ceux qui les transformaient en forme analysable par ordinateur. Pour maîtriser ces immenses volumes d'octets, qui menacent de nous submerger, l'historien doit toujours comprendre les sources d'où elles parviennent. Evidemment, on n'échappera jamais aux erreurs de transcription et de codage, non moins genantes et peut-être plus fréquentes dans les labos d'aujourd'hui que dans les scriptoria d'antan. Mais ce genre de problème est assez bien connu, et au moins est-il susceptible d'être résolu. Plus serieux, me parait-il, sont les problèmes d'interprétation. Lorsqu'un historien du moyen-âge se met a codifier (disons) les métiers (ou meme les noms) attestés dans une source quelconque, assurément il ne prétendrait jamais que les mêmes codes serviront à codifier une source de la renaissance, ou une autre source. Pourtant, le but de la standardisation ne serait-il pas de permettre exactement ce genre de comparaison? A quoi bon échanger nos textes et nos bases de données sans accord au sujet de leurs fondations théoriques? Ce qui nous manquait dans nos discussions il y a deux ans, c'était une metalangue pour décrire ces fondations,une terminologie neutre qui jouera pour les textes la meme rôle que les méthodes d'analyse de données bien connues dans le monde de l'informatique. Car il ne suffit pas simplement de réproduire (même exactement) les mots seuls d'un récit pour le comprendre et pour s'en servir. Saisir un texte est toujours et doit toujours être l'interpreter.
Si j'insiste sur ce point, c'est parce qu'il existe partout – regrettablement – des fanatiques d'informatique qui vous assureront qu'une fois saisies sur support magnetique, une fois gerées par logiciel, les données textuelles se transformeront en réalite objective. C'est faux, mais pas entièrement. Car, si on inclus dans cette saisie l'éxpression en langage standardisée des interprétations que l'on veut porter sur les données – si on exprime et les données elles- mêmes et la structure dans laquelle on les croit fonctionner – on atteindra peut-être le niveau de l'objectivité. On pourrait donc au moins comparer les mots appartenants aux métiers selon M. Untel avec ceux qui fonctionne sur le meme plan selon Mlle. Unetelle. On pourrait vérifier dans quels genres de textes de tels mots se trouvent, pour en construire de nouveau une typologie. Ces comparaisons exigent, assurément, un accord entre les gens au sujet des fonctions textuelles qui doivent être distinguées – et c'est sur cette tâche non negligeable que nos efforts devraient se concentrer.
Dans le cours de hiver 1987, j'ai eu le plaisir (un peu douteux du point de vue météo) d'assister à une autre conférence sur la standardisation qui avait lieu à New York. Là, il n'était plus question de la possibilité de standardisation des formats électroniques des textes, mais plutôt d'une nécessité absolue. Cette conférence, organisée par l'Association for Computers and the Humanities, réunissait les représentants d'une trentaine de grandes organisations et sociétés de récherche américaines et européenes, et aussi de la plupart des archives et des collections de textes électroniques connues sur le plan mondial. A la surprise géneral, on constata unanimement les résultats désastreux de l'absence d'une méthode d'encodement universellement consentie. Chaque projet important ayant dû découvrir en partant de zéro ses propres solutions à des problemes fondamentalement semblables, on voyait partout un gaspillage des moyens restreints et un veritable méli-mélo de codages. On ne s'attendait plus à une cacophonie – on l'avait.
De cette conférence, grâce aux efforts d'une petite bande de fanatiques, dont j'ai l'honneur de faire partie, est née la Text Encoding Initiative, un effort vraiment international, financée par le National Endowment for the Humanities et par la Communauté Européene, mais dirigée surtout par la communauté internationale des chercheurs. Cette initiative a pour but l'élaboration et la promotion d'un ensemble de "guidelines" – lignes directrices – pour la préparation et l'échange des textes éléctroniques dans la recherche, dont la première version sortira en juin 1990. Malheureusement le temps me manque pour vous expliquer toute la structure de l'entreprise, pour interessante qu'elle soit pour les amateurs des structures byzantines. Pour simplifier, je ne dirai que deux mots sur ses principes.
D'abord, il faut distinguer les recommendations sur deux plans – le "quoi" et le "comment". Par le "quoi" j'entends les traits des données textuelles – quels eléments des discours étudiés – devraient etre signalés dans une texte; par le "comment", la manière de les signaler. Je ne dirai pas grand chose sur ce dernier: heureusement, il éxiste déjà une métalangue standardisée, élaborée par les informaticiens pour décrire les codages divers dont se sert l'édition électronique. Cette langage, la SGML (Standard Generalised Markup Language) est déjà acceptée par la ISO et ça serait vraiment bête de la réinventer. C'est un langage qui a été
inventé exprès pour décrire les structures des textes, indépendement et de leur réalisation et de leur application. Tout ce qui nous concerne à son égard est que ses pouvoirs soient à la hauteur des besoins des chercheurs en sciences humaines – une race, je le dis avec fierté, à la fois éxigeante et tetue.
C'est plutot le "quoi" de nos efforts que je voudrais porter a votre attention. Il s'agit de définir un ensemble minimal de traits textuels, sur lequel on peut etre d'accord. Avec ce minimum on peut garantir notre premier but: l'échange et l'integration consequente de textes preparées en des lieux différents pour des recherches diverses. On peut également garantir de traduire en ce format les grands masses de textes déja existantes dans le monde, pourvu qu'elles reconnaissent l'éxistence de cet ensemble minimal de traits.
Définir cet ensemble est le travail de trois des quatre commités operatifs de l'Initiative. Un commité s'occupe des traits relatifs à la description bibliographique des sources textuelles; un autre des traits conventionellement réalisés physiquement, par exemple l'orthographe, les structures telles que les paragraphes, les titres etc. mais aussi les structures formelles de certain genres de récit litteraire; le troisième vise tout le plan interpretatif. Pour commencer, ce commité énumerera les traits linguistiques – la phonologie, la morphologie et le syntaxe par exemple.
On sait bien que les standards ne s'imposent pas: ils doivent être acceptés, même voulus, et par tous. Il faut donc que nos "Guidelines" soient extensibles et qu'elles soient capables de soutenir différents modèles théoriques. Il faut aussi qu'elles soient créées par la communauté intellectuelle qui en jouirra.
Si vous voulez participer à nos efforts, n'hesitez pas – on a besoin de vos connaissances!
——–
Je remercie Lou de m'avoir permis de publier cette communication ici, à quasi vingt ans d'intervalle. On mesure maintenant le chemin parcouru, les avancées prodigieuses et les questions ou problèmes qui subsistent. Rule Britannia !