5. Résultats expérimentaux
Graphist a été testé sur de nombreux textes allant du XVe
siècle à nos jours. Nous indiquons dans le tableau ci-dessous les résultats obtenus avec les
textes les plus significatifs:
Texte Date Occ. anc. amb. auto analysés
ARTOIS XVe 45600 21,4% 16,6% 14,6% 82,0%
PEIRESC 1620 7400 14,0% 13,0% 27,0% 90,0%
BORDEU XVIIIe 63000 13,0% 12,5% 37,0% 90,4%
DIDEROT XVIIIe 30200 2,2% 11,0% 42,0% 94,0%
ACADÉMIE 1877 6666 0,1% 10,0% 36,0% 94,0%
Les textes sont les suivants: ARTOIS: Extrait du Comte d'Artois, milieu XVe s. -- il est
à noter que ce texte est antérieur à la période qui est en principe
représentée dans notre dictionnaire de référence DAC; PEIRESC: Correspondance
Nicolas Fabri de Peiresc - Alphonse de Rambervillers (1620-4); BORDEU: Correspondance de Théophile de
Bordeu, 1739-48; DIDEROT: Correspondance de Diderot, 1771; ACADÉMIE: Préface du
Dictionnaire de l'Académie française de 1877 (7e éd.).
Tous ces résultats s'appliquent à un traitement différé des documents
concernés, c'est-à-dire avant toute intervention manuelle. La signification des chiffres figurant dans
le tableau est la suivante:
- le nombre d'occurrences est le nombre de mots-occurrences dans le texte;
- le pourcentage de graphies anciennes indique le nombre de mots-occurrences identifiés
automatiquement comme graphies anciennes par Graphist; on voit clairement que ce pourcentage est
fonction de l'ancienneté du texte;
- le pourcentage d'ambiguïtés indique le nombre total de mots-occurrences
considérés comme ambigus par Graphist. Là encore, ce nombre dépend
de l'ancienneté du texte;
- le pourcentage auto indique, parmi le nombre précédent de mots-occurrences ambigus,
le nombre de cas où l'ambiguïté a pu être résolue automatiquement par
Graphist, par analyse du contexte. On voit que si, pour les textes modernes, ce chiffre peut
dépasser 40%, il chute avec l'ancienneté du texte;
- le pourcentage de mots analysés indique le nombre de mots-occurrences qui ont au total
été analysés automatiquement par Graphist. Le pourcentage restant est donc
constitué (1) majoritairement des ambiguïtés non résolues et (2) des mots inconnus.
C'est ce pourcentage restant qui nécessite une intervention manuelle de l'utilisateur, en révision
d'index (cf. 4.2.4), afin de terminer la lemmatisation du document. On voit que ce dernier chiffre dépasse
90% pour les textes appartenant à la période que nous nous proposions de traiter, pour monter
à près de 95% pour les textes modernes.
[Retour à la table des matières] [Suite]