CHWP B.25 | Catach, "Graphist" |
Le dictionnaire de référence utilisé dans Graphist est issu du Dictionnaire Historique de l'Orthographe Française (N. Catach et al. 1994) élaboré à HESO depuis de nombreuses années. Ce dictionnaire est composé de deux parties: le RENA, comprenant l'analyse détaillée de 2000 mots (histoire, étymologie, prononciation et évolution au travers des dictionnaires et grammaires depuis le XVIe siècle), et le DAC, répertoriant les entrées des huit éditions du Dictionnaire de l'Académie française depuis 1694 ainsi que les dictionnaires de R. Estienne (1549), J. Thierry (1564) et J. Nicot (1606), soit onze dictionnaires.
Le DAC existe initialement sous la forme d'une base de données (80.000 entrées, 32.000 graphies, 18.000 mots), dont l'intérêt majeur est que toutes les évolutions graphiques des mots y sont codées, ce qui lui confère un aspect descriptif inégalé des modifications orthographiques du français. Cette base a ainsi permis de mettre au point un ensemble de près de 600 règles, dont un sous-ensemble a été extrait pour le projet Graphist (v. 3.4).
Cette base de données a ensuite été compactée pour constituer le dictionnaire de référence de Graphist. Afin d'avoir un dictionnaire contemporain (la dernière édition de l'Académie datant de 1935), la base a également été enrichie par la base lexicale VoisiLex de 60.000 mots développée à HESO (N. Catach et al. 1994), qui fait office de douzième dictionnaire.
Ainsi, chaque entrée du DAC contient l'historique du mot dans les douze dictionnaires, les catégories grammaticales et indicateurs morphologiques (genre, nombre, série flexionnelle); pour un certain nombre de mots (homographes, mots disparus), une courte définition est également indiquée, ce qui est particulièrement important pour le traitement des ambiguïtés dans Graphist (v. 3.3).
On aura par exemple:
armoire, n.f.: 1549 armaire, ormaire; 1564, 1606 armaire m., ormaire; 1694-1935 armoire.
Enfin, un système hiérarchique a été mis au point pour les homographes, permettant d'indiquer les plus fréquents dans une série: cela permet, lors du traitement des ambiguïtés, de toujours proposer en premier lieu les mots les plus fréquents (v. 3.3). Par exemple, pour la forme appeler, on aura:
épeler, v. "nommer les lettres": 1549, 1564 espeler, epeler, eppeler, eppeller, appeler, appeller; 1606 espeller, epeler, espeler, eppeler, eppeller, appeler, appeller; 1694 epeler; 1718-1935 épeler.
ce qui permet de privilégier la première analyse.[1]
[Retour à la table des matières] [Suite]
[1] Ce travail repose sur des travaux menés à l'INaLF sous la direction de Robert Martin, ainsi que de N. Catach (1984).