CHWP B.26 | Auger & Poirier, "Le Dictionnaire du français québécois et TACT" |
Dès le début de l'entreprise du Dictionnaire du français québécois (DFQ), dans les années 1970, l'équipe du Trésor de la langue française au Québec (TLFQ) a jeté les bases d'un projet informatique touchant les diverses étapes de la réalisation du dictionnaire (Juneau & Poirier 1979: 15-71; Poirier 1988: 106).
Aujourd'hui, l'équipe a le sentiment que les principes directeurs qu'elle avait arrêtés à l'époque étaient les bons. Avec la révolution qu'ont entraînée l'arrivée massive des micro-ordinateurs et le développement des logiciels, il est devenu possible de réaliser les objectifs de départ et même de les dépasser largement.
Cet article vise à montrer comment l'équipe du TLFQ envisage de tirer parti de trois logiciels différents afin de gérer l'établissement du texte de son dictionnaire et d'exploiter le corpus informatisé que constitue ce texte qui se développe et s'enrichit continuellement.
Le corpus d'articles du DFQ a un statut particulier: il constitue la synthèse lexicographique des informations disponibles dans les autres corpus informatisés et dans le fonds documentaire du TLFQ. Ce corpus d'articles doit cependant pouvoir répondre continuellement à une double série d'exigences. Ces exigences sont imposées, d'une part, par le logiciel utilisé pour l'édition électronique du dictionnaire et, d'autre part, par le logiciel utilisé pour l'exploitation automatique des textes. Cette double utilisation d'un seul et même corpus pose un problème d'ordre technique: comment, en effet, adapter le corpus d'articles afin qu'il puisse se conformer tour à tour aux exigences spécifiques que requièrent l'édition électronique et l'exploitation automatique sans devoir multiplier en autant de versions chacun des articles de ce corpus?
Le DFQ est entièrement réalisé par l'équipe du TLFQ, de la conception des textes jusqu'à la production du prêt-à-photographier. Dans le traitement informatique du DFQ, la saisie des articles est effectuée au moyen du logiciel WordPerfect, l'édition électronique du dictionnaire au moyen du logiciel Ventura Publisher et l'exploitation du corpus d'articles au moyen du logiciel TACT.[1] Pour articuler entre elles ces diverses opérations, le TLFQ a développé, au moyen du logiciel WordPerfect, des scripts d'encodage automatique des articles. Ces scripts permettent de tirer profit de chacun des trois logiciels servant au traitement du corpus que forment les articles.
Basées sur l'exécution de scripts de commandes (ou macros) WordPerfect, les opérations de codification consistent à insérer des codes spécifiques dans le texte de l'article. Deux scripts de codification automatique (codification 1 et 2, Figure 1) ont été rédigés. Le premier de ces scripts de codification prépare les articles en vue de leur édition électronique sous Ventura Publisher. Le second prépare les articles en vue de leur exploitation par le logiciel TACT. La codification par WordPerfect permet de conserver aux articles leurs attributs de mise en forme originale (gras, italiques, exposants, etc.) en évitant l'enregistrement des fichiers en format ASCII. Ainsi, chacun de ces trois logiciels joue un rôle spécifique et indispensable dans le traitement informatique global du corpus d'articles.
Un article de dictionnaire est une forme de texte qui possède une structure particulière qui définit la façon dont les informations vont se succéder et se présenter visuellement dans le corps de l'article. La saisie des articles est donc assujettie à un certain nombre de conventions typographiques qui en balisent le texte. Dans la Figure 2, on note que chaque type de rubrique est annoncé par un signe typographique distinct: les rubriques des sens principaux débutent toujours par un losange plein; celles des sens secondaires par un losange vide; celles des dérivés débutent par un triangle, etc.
En plus des codes typographiques qui commandent les multiples changements d'attributs de caractères dans l'article, deux codes supplémentaires, destinés au repérage d'informations spécifiques, -- <$!OR.xxxx.yyyy> et <$!AUT> -- sont insérés dans l'article. Ces deux codes ou jalons servent respectivement à identifier l'origine historique des emplois traités dans le DFQ (archaïsme, dialectalisme, etc.) et les auteurs cités dans les exemples qui servent à illustrer ces emplois.[2] À l'impression, l'article, tel que rédigé par les rédacteurs, se présente donc comme dans la Figure 2.
Pour permettre ce résultat à l'impression, WordPerfect insère ses propres codes cachés dans le texte de l'article. La Figure 3 illustre un extrait du même article avec les codes WordPerfect qui en déterminent l'apparence à l'impression.
Cette version déjà truffée de codes -- qui ne gênent pas le rédacteur puisqu'ils sont cachés et ne sont pas reproduits sur papier -- servira de point de départ aux opérations de codification subséquentes.
Il faut bien voir ici le rôle central que joue le logiciel WordPerfect: d'une part, il sert à la saisie des articles et, d'autre part, il a la charge de convertir les fichiers d'articles, par le recours à des scripts, en fonction des exigences imposées par les deux autres logiciels utilisés dans le traitement des articles.
Si l'article est destiné à l'édition électronique, il se présentera, au terme de l'encodage automatique effectué par WordPerfect, comme dans la Figure 4.
Si l'article est destiné à être interrogé au moyen de TACT, il se présentera, au terme de l'encodage automatique qu'effectue WordPerfect, comme dans la Figure 5.
C'est donc au moyen de scripts de codification que le même texte original peut être automatiquement adapté aux exigences spécifiques de Ventura Publisher et de TACT. Cette façon de procéder présente l'avantage d'adapter la 'machine' aux besoins des lexicographes et non l'inverse -- principe qui a constamment guidé les responsables du TLFQ dans l'utilisation des ressources informatiques.
Le fichier d'article, une fois encodé pour l'édition électronique (cf. Figure 4), sera "interprété", dans Ventura Publisher, par un fichier de style qui détermine comment doivent être disposées les informations sur la page imprimée. Ventura Publisher gère les fichiers de format WordPerfect, d'où l'utilité de codifier les textes dans WordPerfect même afin de conserver tous les attributs originaux de mise en forme du texte. Sans plus de remaniement, l'article se présentera dans sa version imprimée tel qu'il apparaît dans la Figure 6.
Le dictionnaire est donc mis en pages sur place, ce qui permet les ajouts et corrections jusqu'à la dernière minute. Les auteurs du DFQ bénéficient par le fait même d'une grande autonomie dans toutes les étapes liées à l'édition électronique de l'ouvrage.
[Retour à la table des matières] [Suite]
[1] TACT est un logiciel d'analyse de bases de données textuelles développé par le Groupe TACT de l'Université de Toronto (cf. Wooldridge 1991). Les résultats présentés dans cet article ont été obtenus avec la dernière version disponible à ce jour (1.2). [NDLR: La terminologie employée ici est celle de la version 2.1: (1.2) Category --> (2.1) Group; Index --> KWIC; KWIC --> Variable Context; Panel --> Window. Voir la notice sur la disponibilité de la dernière version.]